91, 请描述Transformer在Training的时候具体使用MAP(Maximum A Posteriori) estimation 模型的地方并描述其流程机制和数学原理 92, 请描述Transformer在训练的过程中什么情况下使用MLE和MAP是基本没有区别的,其背后的数学原理是什么? 93, 为什么一般情况下Transformer的训练不会完全使用Bayesian模型而是更倾向于采用Naive Bayes?请具体阐述其架构和背后的数学原理 94,请从Bayesian模型的角度分析Transformer中代表模型例如GPT3为何是模型越宽越深越好? 95,请描述Naive Bayes在Transformer的Auto-encoding模型训练时候的具体应用及其有效性的数学证明 96,请描述Naive Bayes在Transformer的Auto-regressive模型训练时候的具体应用,这样能够在小样本数据的时候帮助取得优质德训练效果?其有效性的数学证明是什么? 97,请描述Naive Bayes在Transformer的Generative Process的具体流程和有效性的数学证明 98,使用Naive Bayes来完成Transformer的Generative Process会有什么问题?问题背后工程实现限制和数学原因是什么? 99,如何使用Transformer和LDA结合完成信息的多分类模型?请实现示例代码 100,为何说Transformer是目前人工智能领域工程落地实践Bayesian理论的典型?请从数学的的角度进行完整的证明(至少包含Encoder-Decoder、Training、Inference等对Bayesian Theory的具体实现) 101,在Gavin看来,“Transformer赋予机器思
Transformer面试 GavinNLP Transformer101之91-101
关注
打赏