CVPR实时移动端检测场景竞赛：字节跳动绝对优势夺冠

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

MAI（Mobile AI Workshop）是由 CVPR 主办的 Workshop 竞赛。近期，来自字节跳动智能创作团队的 ByteScene 团队在 MAI 2021 实时移动端场景检测项目上，以 163.08 分的绝对优势夺得冠军。

竞赛结果及相关报告见：https://arxiv.org/pdf/2105.08819.pdf

竞赛项目介绍

MAI 2021 实时移动端场景检测竞赛：基于 RGB 图像的实时高性能移动端场景类别预测，任务要求在移动端硬件上对摄像头输入的图像实时预测出其场景类别，总共有 30 个场景类别。

数据集：CamSDD (Camera Scene Detection Dataset) 数据集有超过 1.1 万张摄像头场景图像，每张图像都是分辨率为 576x384 的 RGB 图像，且属于 30 个场景类别中的某一个类别；其中 9897 张是有标注的训练集图像，600 张是无标注的验证集图像，还有 600 张是举办方保留的测试集图像，参赛者不会拿到测试集图像。

评测方法：参赛者需要将训练好的图像场景类别预测模型转换为 8 位量化的 TFLite 模型，并将 TFLite 模型上传到举办方的服务器。在举办方的服务器上，TFLite 模型会被发送到 Apple Bionic A11 SoC 移动端设备上测试模型运行耗时，并在举办方保留的测试集上测试 Top-1 和 Top-3 识别准确率。

评价指标：

识别场景类别的 Top-1 准确率；
识别场景类别的 Top-3 准确率；
在 Apple Bionic A11 目标平台上的运行耗时；

最终评分是依据公式（C 是一个常数的标准化系数)

团队成绩：来自字节跳动智能创作团队的 ByteScene 团队以 163.08 分的绝对优势夺得冠军。

竞赛难点：

本次场景检测算法比赛要求兼顾在移动端上的速度和识别准确率，需要优化足够轻量级的高精度小模型;
训练集数据量有限，存在较大的过拟合（Overfit ）风险；

算法背景介绍

自动预测摄像头图像的场景类别是智能手机上的一项基础算法能力，手机相机可以根据当前的摄像头图像场景类别对成像参数进行自动调节，以拍出最佳效果的图片和视频。为了能达到实时自动调节手机相机的能力，需要场景类别预测算法能在手机上实时运行，同时保证识别准确率。这对算法设计者来说，是一项很大的挑战。

字节跳动的 ByteScene 团队使用迁移学习的方法训练大模型和移动端小模型，并使用迁移后的大模型对过滤后的额外数据打上伪标签，利用这些额外数据和原有训练集训练出了移动端高效且高准确率的场景检测算法。

算法技术方案

ByteScene 团队使用了一种受 Google 的 Big transfer 工作启发的迁移学习方法来训练大模型和移动端小模型（如图 3）。移动端小模型是使用如表 3 所示的 MobileNetV3-Like 架构，该架构在 ImageNet 2012 验证集上获得了 67.82% 的 Top-1 准确率，它是使用字节跳动智能创作团队自研的 NAS 算法搜索出来的，该模型只有 86M FLOPs 的计算量。ByteScene 通过将输入图像的分辨率从 576×384px 缩小为 128×128px，大大减少了计算量。

图 3.ByteScene 团队使用的算法模型训练方案

大模型的训练

ByteScene 团队基于 ResNet101x3 主干网络建立了分类大模型，首先保留 1003 张有标签图像作为自用验证集，在 CamSDD 训练集上对带有预训练的大模型进行了微调。在微调过程中，它的主干被固定住，并且使用 AdamW 优化了 10 个 epoch。然后，ByteScene 利用训练好的第一版大模型对官方的验证集打上伪标签，得到新的验证集后，利用所有可用的训练图像对大模型进行再次训练。最终训练得到的大模型在官方验证集上达到了 97.83% 的 Top-1 准确率。

移动端模型训练

ByteScene 利用训练好的大模型过滤出了 2577 张额外图像，并打上了伪标签，将额外图像加入了原有的训练集。首先，使用 AdamW 优化器对带有预训练的移动端模型 (表 3) 在新训练集上进行微调。接下来，对模型主干进行解冻，继续对模型进行微调。最后，再次冻结模型主干，并使用 SGDW 优化器对模型进行了额外的微调。

表 3. ByteScene 使用的移动端模型结构。

在第三次微调中，训练图像被直接缩小为 128×128 分辨率。最终的 INT8 量化 TFLite 模型是使用标准 TensorFlow 训练后量化工具转换得到的。为了保持量化后的模型精度，团队在移动端模型中仅使用了 ReLU6 和 HardSigmoid 这两种非线性激活函数。

算法的应用

目前，视频内容是大众消费内容的很核心的一部分（抖音、TikTok 等），但剪辑视频对于大众用户来讲，依然属于比较复杂的信息处理手段。对于大众用户来讲，“想剪一个高质量的视频”和 “剪辑技能的高门槛” 之间往往存在落差。智能模板匹配为大众用户提供了一个低门槛的快捷视频创作方式，真正实现了“一键成片”（如下图）。图像场景检测 / 分类算法通过预测每张图片素材的场景类别，为智能模板匹配提供了重要的匹配依据。这项算法，让普通用户也能通过简单的操作，剪辑出高质量的视频，有助于提升平台的用户体验和黏性。

字节跳动智能创作团队

智能创作是字节跳动的多媒体创新科技研究所和综合型服务商。覆盖音视频、计算机视觉、语音、图形图像、工程软件开发等多技术方向，在部门内部实现了内容创作和消费的闭环。旨在以多种形式向公司内部各类业务线和外部 toB 合作伙伴提供业界最前沿的多媒体和智能创作能力与行业解决方案。

目前，智能创作团队已通过字节跳动旗下的智能科技品牌火山引擎向企业开放技术能力和服务。

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

3D视觉工坊小助理微信.jpg.jpg

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

CVPR实时移动端检测场景竞赛：字节跳动绝对优势夺冠

[ 申请 ]友情链接：