建立真实世界数据集
目前让人工智能感知环境、认识世界,建立类人化的认知体系主要通过什么“抓手”展开?
业内专家指出,历史证明,基准和数据集是人工智能行业创新的关键催化剂。今天,几乎可以识别图像中任何对象的计算机视觉系统都是建立在数据集和基准之上的,数据集和基准为研究人员提供了一个研究真实世界图像的实验台。
“脸谱日前发布的这个项目,其实本身就是建立一个数据集,旨在训练人工智能模型更像人类。其开发了5个围绕第一人称视觉体验的基准挑战,即把第一人称视角拆解成5个目标,开展相应的训练集竞赛。”谭茗洲指出。
Ego4D的5个基准是:情景记忆,什么时候发生?预测,我接下来可能会做什么?手—物交互,我在做什么?视听日记,谁在什么时候说了什么?社交互动,谁在和谁互动?
谭茗洲强调,上述基准测试将促进开发人工智能助手所必需的构建模块的研究。人工智能助手不仅可以理解现实世界中的指令并与之交互,同时可以在元宇宙中实现对元宇宙中指令的理解和交互。
为了建立这个数据集,与脸谱合作的大学团队向研究参与者分发了现成的头戴式摄像头和其他可穿戴传感器,以便捕获第一人称的、未经编辑的日常生活视频。项目的重点是参与者从日常场景中捕获视频,比如购物、烹饪、边玩游戏边聊天,以及与家人和朋友进行其他团体活动等。
视频采集了摄像头佩戴者在特定环境中选择注视的对象,以及摄像头佩戴者如何从自我中心角度与人和物互动。到目前为止,摄像头佩戴者已经执行了数百项活动,并与数百种不同的对象进行交互,项目的所有数据都是公开的。
“脸谱这项研究能够更快地推动人工智能领域自我中心认知研究的进步。这将对我们未来的生活、工作和娱乐方式产生积极影响。”谭茗洲表示。