自然语言处理NLP星空智能对话机器人系列:NLP on Transformers 101 第8章
第8章: 轻量级ALBERT模型剖析及BERT变种中常见模型优化方式详解 1,从数学原理和工程实践的角度阐述BERT中应该设置Hidden Layer的维度高于(甚至是高几个数量级)Word Embeddings的维度背后的原因 2,从数学的角度剖析Neural Networks参数共享的内幕机制及物理意义 3,从数学的角度剖析Neural Networks进行Factorization的机制及物理意义 4,使用Inter-sentence coherence任务进行模型训练的的数学原理剖析 5,上下文相关的Hidden Layer Embeddings 6,上下午无关或不完全相关的Word Embeddings 7,ALBERT中的Factorized embedding parameterization剖析 8,ALBERT中的Cross-Layer parameter sharing机制:只共享Attention参数 9,ALBERT中的Cross-Layer parameter sharing机制:只共享FFN参数 10,ALBERT中的Cross-Layer parameter sharing机制:共享所有的参数 11,ALBERT不同Layers的Input和Output相似度分析 12,训练Task的复杂度:分离主题预测和连贯性预测的数学原因及工程实践 13,ALBERT中的不同于BERT的 Sentence Negative Sampling 14,句子关系预测的有效行分析及问题的底层根源 15,ALBERT的SOP(Sentence Order