81,Transformer为何只使用Attention机制就解决了CNN、LSTM、RNN等能解决的一切问题及这些传统网络解决不了的问题? 82,当有新的数据的来训练Transformer模型的时候,如何如何实现模型的增量训练? 83,请分析如何使用Transformer探测Toxic语言,Toxic语言能够通过Tansformer移除吗?请分析工程实践和数学原理 84,Transformer在通用语言领域(例如,整个英语语言领域)能否实现Word Analogy功能,请分析具体的工程原因和数学原因 85,如何分类语料库中的有些Label标注是错误的,如何使用Transformer来发现分类语料库中的Bad Label?请描述具体的工程过程 86,为何说Transformer是一种理想的Bayesian模型实现?请阐述数学原理及具体的场景案例 87,请描述Transformer至少三个使用Bayesian具体地方并阐述在这些具体地方使用Bayesian的数学原理 88,为什么说Transformer基于对Bayesian的时候极大的降级了训练时候的overfitting?请阐述工程工程和数学原理 89, 请详解描述使用Transformer进行Transfer Learning中具体Prior和Posterior Probability地方及其具体的功能和数学原理 90, 请描述Transformer在Training和Inference对MLE(maximum likelihood estimation)模型具体应用
星空智能对话机器人的Gavin认为Transformer是拥抱数据不确定性的艺术。Transformer的架构、训练及推理等都是在Bayesian神经网络不确定性数学思维下来