您当前的位置: 首页 >  面试

段智华

暂无认证

  • 0浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

Transformer面试 GavinNLP Transformer101之91-101

段智华 发布时间:2021-11-24 20:12:22 ,浏览量:0

91, 请描述Transformer在Training的时候具体使用MAP(Maximum A Posteriori) estimation 模型的地方并描述其流程机制和数学原理 92, 请描述Transformer在训练的过程中什么情况下使用MLE和MAP是基本没有区别的,其背后的数学原理是什么? 93, 为什么一般情况下Transformer的训练不会完全使用Bayesian模型而是更倾向于采用Naive Bayes?请具体阐述其架构和背后的数学原理 94,请从Bayesian模型的角度分析Transformer中代表模型例如GPT3为何是模型越宽越深越好? 95,请描述Naive Bayes在Transformer的Auto-encoding模型训练时候的具体应用及其有效性的数学证明 96,请描述Naive Bayes在Transformer的Auto-regressive模型训练时候的具体应用,这样能够在小样本数据的时候帮助取得优质德训练效果?其有效性的数学证明是什么? 97,请描述Naive Bayes在Transformer的Generative Process的具体流程和有效性的数学证明 98,使用Naive Bayes来完成Transformer的Generative Process会有什么问题?问题背后工程实现限制和数学原因是什么? 99,如何使用Transformer和LDA结合完成信息的多分类模型?请实现示例代码 100,为何说Transformer是目前人工智能领域工程落地实践Bayesian理论的典型?请从数学的的角度进行完整的证明(至少包含Encoder-Decoder、Training、Inference等对Bayesian Theory的具体实现) 101,在Gavin看来,“Transformer赋予机器思

关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.0408s