最近在了解数据并行和模型并行相关的知识,主要从BERT模型入手学习(相关知识可以参考),其中AI硬(he)件(dan)厂商英伟达宣布,他们在NLP模型上取得了三大突破,为今后会话AI的落地应用铺平了道路。英伟达一举创造了2个壮举!训练出了世界上最大的语言模型——MegatronLM,包含83亿参数,比BERT大24倍,比GPT-2大5.6倍;还打破了实时对话AI的记录,仅耗时53分钟即可训练出行业标准BERT模型、2毫秒就能对答案做出推断!
英伟达用自己的硬件与并行计算软件相结合,在BERT模型的训练和推理上创下三项世界纪录:
-
最快的BERT训练速度,只需53分钟
-
最快的BERT推理速度,只需2.2ms
-
最大的BERT模型,包含83亿参数
英伟达用1472个V100 GPU首次实现在一个小时之内训练完BERT模型。考虑到开发人员对大型NLP模型不断增长的需求,英伟达建立并训练了世界上最大的基于Transformer的语言模型GPT-2 8B,它具有83亿个参数,是BERT-Large的24倍、GPT-2的5.6倍。GPT-2 8B模型使用原生PyTorch进行训练,在512 GPU上有8路模型并行和的64路数据并行。实验是在DGX SuperPOD上进行的,其基准模型为12亿个参数,适用于单个V100 GPU。在单个GPU上运行此基线模型的端到端训练pipeline可实现39 TeraFLOPS的算力,这是V100 GPU的理论峰值算力的30%。
Megatron开源地址: https://github.com/NVIDIA/Megatron-LM
Faster Transformer开源地址: https://github.com/NVIDIA/DeepLearningExamples/tree/master/FasterTransformer
关于数据并行部分的介绍
参考
https://tech.sina.com.cn/csj/2019-08-14/doc-ihytcitm9092021.shtml
https://www.sohu.com/a/333636928_100024677
https://www.toutiao.com/a6683065647456322056/
https://zhuanlan.zhihu.com/p/69389583
https://zhuanlan.zhihu.com/p/48035735
https://zhuanlan.zhihu.com/p/46652512
https://www.sohu.com/a/302778967_114877
https://www.jianshu.com/p/aa2eff7ec5c1
https://www.jianshu.com/p/63943ffe2bab