您当前的位置: 首页 > 

Better Bench

暂无认证

  • 1浏览

    0关注

    695博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

【文献学习】Conformer: Convolution-augmented Transformer for Speech Recognition

Better Bench 发布时间:2021-09-28 17:08:44 ,浏览量:1

目录
  • 1 引言
  • 2 介绍
  • 3 Conformer模型
    • 3.1 Muti-Headed Self-Attention 模块
    • 3.2 卷积模块
    • 3.3 Feed forward 前馈模块
  • 4 实验分析
  • 5 疑问和思考

1 引言

Transformer 模型擅长捕捉基于内容的全局交互,而 CNN 则有效地利用了局部特征。

2 介绍

Transformer 擅长对远程全局上下文进行建模,但它们提取细粒度局部特征模式的能力较差。本文提出将self-Attention与卷积有机结合的方法,自注意力学习全局交互,而卷积有效地捕获基于相对偏移的局部相关性。

3 Conformer模型

在这里插入图片描述

Conformer 模块由四个模块堆叠在一起组成,即前馈模块、自注意力模块、卷积模块和最后的第二前馈模块。实验对比,在 Conformer 架构中使用单个前馈模块相比,拥有两个前馈层将注意力和卷积模块夹在中间效果更好。在 self-attention 模块之后堆叠的卷积模块最适合语音识别。

3.1 Muti-Headed Self-Attention 模块

在这里插入图片描述

这种self-attention 来源于Transformer-XL ,相对正弦位置编码方案。 相对位置编码允许自注意力模块在不同的输入长度上更好地泛化,并且得到的编码器对话语长度的变化更加鲁棒。 使用带有 dropout 的 prenorm 残差单元 ,这有助于训练和规范更深的模型。在 pre-norm 残差单元中使用具有相对位置嵌入的多头自注意力。

3.2 卷积模块

在这里插入图片描述

卷积模块包含一个扩展因子为 2 的pointwise卷积,通过 GLU 激活层投影通道数,然后是一维depthwise 卷积后面是 Batchnorm,然后是 swish 激活层。Batchnorm 在卷积之后立即部署,以帮助训练深度模型

3.3 Feed forward 前馈模块

在这里插入图片描述

由两个线性变换和中间的非线性激活组成。 在前馈层上添加一个残差连接,然后是layernorm。

4 实验分析

略:本人只对模型感兴趣,只阅读了模型部分

5 疑问和思考

● 代码是Pytorch写的,不知道Keras能不能使用。https://github.com/lucidrains/conformer?utm_source=catalyzex.com ● 如何把该模型应用到信号处理领域,是我需要研究的问题。

关注
打赏
1665674626
查看更多评论
立即登录/注册

微信扫码登录

0.0389s