针对大一统模型的目标,达摩院提出了统一架构、模态和任务的多模态预训练模型OFA。
超大规模多模态预训练模型 M6 的发布,是达摩院过去一段时间最重要的工作之一。此前,M6 已在多模态大模型训练、服务化和亮点应用等方面取得了突破,尤其是绿色低碳训练技术,M6 将模型参数规模扩展到了十万亿,平均单卡可承载 200 亿参数。
近期,包括 DeepMind 的“通用 AI Agent” Gato、通用图文模型 Flamingo,此前还有 Google Pathway 的进展披露,均表明大规模多模态预训练已经逐步成为了未来 AI 的基础设施,AI 模型也逐渐变得更加通用、统一。M6 团队在今年年初就针对统一任务、模态和模型结构的这一目标,研发完成了通用多模态预训练模型 M6-OFA。
目前,约 10 亿参数的 OFA-huge 模型在训练数据少一到两个数量级的情况下,不仅在图文描述、物体指代理解等多任务中超越 Deepmind Flamingo 和 Google CoCa,还同时具备高质量的图像生成能力。相关论文已被 ICML 2022 录用,对应代码、模型、交互式服务也已开源。
OFA 的核心模型架构是经典的 transformer encoder-decoder。但围绕模态、任务及架构大统一的技术目标,OFA 做出了几个关键性改进。
- 首先,针对图像、文本、坐标等不同模态信息,OFA 设计了兼容的输入和输出格式,将它们融入到统一词表中。
- 其次,对涉及多模态、NLP 和 CV 的各类任务,OFA 都将其表达成序列到序列生成的形式,将各类问题统一为用 transformer 架构解决的生成问题。
- 最后,针对效果优化,OFA 增加了 Trie 树实现帮助模型在分类任务上能够取得稳定的效果提升且不会输出集合外的标签。
当前,OFA 已能实现图像生成、图文描述、视觉问答、物体指代等多个任务,并在开放域数据和零样本学习场景中有优异表现。
基于给定文本的真实图像生成(A bear in the water)
基于给定文本的反事实图像生成(A blue tree in the city)
基于不同风格的艺术创作(An art painting of a never-ending flower in the style of black-lighting)
开放域图文问答
未知领域的物体指代
此前,生成范式模型在分类任务上都和 SOTA 模型存在明显差距,OFA 突破了这一短板,其在分类和生成任务均超出 large 规模的一系列 baseline,在多项任务中都有 SOTA 表现。Github 显示,OFA-Huge 模型在 Image Captioning 上也已经显著超越 Deepmind Flamingo 和 Google Coca。
M6-OFA 位列 MSCOCO Image Captioning 官方榜首
在单模态任务上,OFA 在 GLUE 上的效果优于 BERT-large,在生成任务文本摘要的 Gigaword 上接近 ProphetNet,在 CV 的 ImageNet 上则超过了 MoCo v3、DINO 等 baseline。
成绩得来不易。但在多任务渐成潮流的背景下,仍有很多重要的技术问题没有被回答,例如如何分配任务权重以实现最优调度,从而达到帕累托平衡。达摩院也已启动相关工作,并发现去掉图像还原能够为 VQA 任务带来明显的效果提升,去掉纯文本则能能让图片分类任务实现最大增益。
技术进步永无止境。现在,可推广到复杂世界的全能模型吸引着科学家。未来,走向现实的大一统模型必将带来更多惊喜。
【论文标题】 Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework
【论文地址】 https://arxiv.org/pdf/2202.03052.pdf
【开源地址】 https://github.com/OFA-Sys/OFA
【交互式 Demo 地址】 https://huggingface.co/OFA-Sys
达摩院:向大一统模型前进