1,请阐述Transformer能够进行训练来表达和生成信息背后的数学假设,什么数学模型或者公式支持了Transformer模型的训练目标?请展示至少一个相关数学公式的具体推导过程。 2,Transformer中的可训练Queries、Keys和Values矩阵从哪儿来?Transformer中为何会有Queries、Keys和Values矩阵,只设置Values矩阵本身来求Attention不是更简单吗? 3,Transformer的Feed Forward层在训练的时候到底在训练什么? 4,请具体分析Transformer的Embeddigns层、Attention层和Feedforward层的复杂度 5,Transformer的Positional Encoding是如何表达相对位置关系的,位置信息在不同的Encoder的之间传递会丢失吗? 6,Transformer中的Layer Normalization蕴含的神经网络的假设是什么?为何使用Layer Norm而不是Batch Norm?Transformer是否有其它更好的Normalization的实现? 独立同分布假设 7,Transformer中的神经网络为何能够很好的表示信息? 8,请从数据的角度分析Transformer中的Decoder和Encoder的依存关系 9,请描述Transformer中的Tokenization的数学原理、运行流程、问题及具体改进方法 10,请描述一下你认为的把self-attention复杂度从O(n2) 降低到 O(n)有效方案.
星空智能对话机器人系列博客自然语言处理NLP星空智能对话机器人系列:NLP on Transformers 101问
关注
打赏