达摩院：向大一统模型前进

凌云时刻发布时间：2022-06-13 11:14:22 ，浏览量：8

针对大一统模型的目标，达摩院提出了统一架构、模态和任务的多模态预训练模型OFA。

超大规模多模态预训练模型 M6 的发布，是达摩院过去一段时间最重要的工作之一。此前，M6 已在多模态大模型训练、服务化和亮点应用等方面取得了突破，尤其是绿色低碳训练技术，M6 将模型参数规模扩展到了十万亿，平均单卡可承载 200 亿参数。

近期，包括 DeepMind 的“通用 AI Agent” Gato、通用图文模型 Flamingo，此前还有 Google Pathway 的进展披露，均表明大规模多模态预训练已经逐步成为了未来 AI 的基础设施，AI 模型也逐渐变得更加通用、统一。M6 团队在今年年初就针对统一任务、模态和模型结构的这一目标，研发完成了通用多模态预训练模型 M6-OFA。

目前，约 10 亿参数的 OFA-huge 模型在训练数据少一到两个数量级的情况下，不仅在图文描述、物体指代理解等多任务中超越 Deepmind Flamingo 和 Google CoCa，还同时具备高质量的图像生成能力。相关论文已被 ICML 2022 录用，对应代码、模型、交互式服务也已开源。在这里插入图片描述

OFA 的核心模型架构是经典的 transformer encoder-decoder。但围绕模态、任务及架构大统一的技术目标，OFA 做出了几个关键性改进。

首先，针对图像、文本、坐标等不同模态信息，OFA 设计了兼容的输入和输出格式，将它们融入到统一词表中。
其次，对涉及多模态、NLP 和 CV 的各类任务，OFA 都将其表达成序列到序列生成的形式，将各类问题统一为用 transformer 架构解决的生成问题。
最后，针对效果优化，OFA 增加了 Trie 树实现帮助模型在分类任务上能够取得稳定的效果提升且不会输出集合外的标签。

当前，OFA 已能实现图像生成、图文描述、视觉问答、物体指代等多个任务，并在开放域数据和零样本学习场景中有优异表现。

在这里插入图片描述基于给定文本的真实图像生成（A bear in the water）

在这里插入图片描述基于给定文本的反事实图像生成（A blue tree in the city）

在这里插入图片描述基于不同风格的艺术创作（An art painting of a never-ending flower in the style of black-lighting）

在这里插入图片描述开放域图文问答

在这里插入图片描述未知领域的物体指代

此前，生成范式模型在分类任务上都和 SOTA 模型存在明显差距，OFA 突破了这一短板，其在分类和生成任务均超出 large 规模的一系列 baseline，在多项任务中都有 SOTA 表现。Github 显示，OFA-Huge 模型在 Image Captioning 上也已经显著超越 Deepmind Flamingo 和 Google Coca。在这里插入图片描述