您当前的位置: 首页 >  机器人

段智华

暂无认证

  • 0浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

自然语言处理NLP星空智能对话机器人系列:NLP on Transformers 101 第8章 轻量级ALBERT模型剖析及BERT变种中常见模型优化方式详解

段智华 发布时间:2021-11-11 20:09:33 ,浏览量:0

自然语言处理NLP星空智能对话机器人系列:NLP on Transformers 101 第8章

第8章: 轻量级ALBERT模型剖析及BERT变种中常见模型优化方式详解 1,从数学原理和工程实践的角度阐述BERT中应该设置Hidden Layer的维度高于(甚至是高几个数量级)Word Embeddings的维度背后的原因 2,从数学的角度剖析Neural Networks参数共享的内幕机制及物理意义 3,从数学的角度剖析Neural Networks进行Factorization的机制及物理意义 4,使用Inter-sentence coherence任务进行模型训练的的数学原理剖析 5,上下文相关的Hidden Layer Embeddings 6,上下午无关或不完全相关的Word Embeddings 7,ALBERT中的Factorized embedding parameterization剖析 8,ALBERT中的Cross-Layer parameter sharing机制:只共享Attention参数 9,ALBERT中的Cross-Layer parameter sharing机制:只共享FFN参数 10,ALBERT中的Cross-Layer parameter sharing机制:共享所有的参数 11,ALBERT不同Layers的Input和Output相似度分析 12,训练Task的复杂度:分离主题预测和连贯性预测的数学原因及工程实践 13,ALBERT中的不同于BERT的 Sentence Negative Sampling 14,句子关系预测的有效行分析及问题的底层根源 15,ALBERT的SOP(Sentence Order

关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.0396s