您当前的位置: 首页 >  性能优化

Transformer 深度解析及性能优化(附完整代码)

蔚1 发布时间:2020-04-06 23:30:34 ,浏览量:5

Transformer 将注意力机制(Attention)发挥到了极致,不但以 encode-decode 形式在 seq2seq 任务中取得 state-of-the-art,并且仅以 encode 形式作为 BERT 的核心组件,打榜几乎所有 NLP 任务。

  • Transformer 中使用了那些 Attention,每种 Attention 具体怎么实现呢
  • 当我们理解 Attention 后怎么合理的构建 Transformer,需要注意那些细节呢
  • BERT 在 Transformer 基础上做了那些优化,可以实现 encode-decode 吗
  • 在 Transformer 模型蒸馏中,BERT 可以分别在 encode 和 decode 端实现蒸馏吗

本 Chat 将会使用 Transformer 搭配 BERT 模型蒸馏实现指代消解,并详细解析核心代码,大家还将学习到:

  1. Transformer 及常用 Attention 详解
  2. Pre-LayerNorm 优势详解
  3. Mask 在 Transformer 中使用方式详解
  4. BERT 实现 encode-decode 详解
  5. Transformer 模型蒸馏中,BERT 在 encode 和 decode 端实现蒸馏详解
  6. 使用 JIT,模型裁剪等方式提高 Transformer 预测性能详解
  7. 附上完整代码供大家学习

阅读全文: http://gitbook.cn/gitchat/activity/5e7e1d555cb8c32b2e8bf19f

您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。

FtooAtPSkEJwnW-9xkCLqSTRpBKX

关注
打赏
1688896170
查看更多评论

蔚1

暂无认证

  • 5浏览

    0关注

    4645博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文
立即登录/注册

微信扫码登录

0.0461s