Transformer 将注意力机制(Attention)发挥到了极致,不但以 encode-decode 形式在 seq2seq 任务中取得 state-of-the-art,并且仅以 encode 形式作为 BERT 的核心组件,打榜几乎所有 NLP 任务。
- Transformer 中使用了那些 Attention,每种 Attention 具体怎么实现呢
- 当我们理解 Attention 后怎么合理的构建 Transformer,需要注意那些细节呢
- BERT 在 Transformer 基础上做了那些优化,可以实现 encode-decode 吗
- 在 Transformer 模型蒸馏中,BERT 可以分别在 encode 和 decode 端实现蒸馏吗
本 Chat 将会使用 Transformer 搭配 BERT 模型蒸馏实现指代消解,并详细解析核心代码,大家还将学习到:
- Transformer 及常用 Attention 详解
- Pre-LayerNorm 优势详解
- Mask 在 Transformer 中使用方式详解
- BERT 实现 encode-decode 详解
- Transformer 模型蒸馏中,BERT 在 encode 和 decode 端实现蒸馏详解
- 使用 JIT,模型裁剪等方式提高 Transformer 预测性能详解
- 附上完整代码供大家学习
阅读全文: http://gitbook.cn/gitchat/activity/5e7e1d555cb8c32b2e8bf19f
您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。