2021 年最受欢迎的 YOLO 变体

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

作者丨南山

来源丨AI约读社

深度神经网络用于目标检测任务是一个成熟的研究领域，近年来，在众多多目标检测模型，One-stage detection 被认为是速度与精度权衡的最佳选择。而YOLO 系列模型是但阶段检测最杰出的物体检测器之一，因为它们能够实时提供最先进的性能。2021 年对 YOLO 来说是快速发展的一年，我们已经看到了许多优秀YOLO变体提出，我们今天将总结2021年最受欢迎的五种 YOLO 变体分别是：

YOLOF：不采用复杂的特征金字塔-仅使用一级特征进行检测

YOLOR：提出的统一网络生成统一的表示，以同时为各种任务提供服务

YOLOS：视觉Transformer新思考只查看每一层的一个序列

YOLOX：新一代目标检测性能速度担当

YOLOP：只看一次就可以实现全景驾驶感知

该列表是按照时间顺序排列的

YOLOF

论文：You Only Look One-level Feature

论文链接：https://arxiv.org/abs/2103.09460

代码链接：https://github.com/megvii-model/YOLOF

Feature pyramid network是CVPR2017年的一篇文章，它在目标检测中融入了特征金字塔，提高了目标检测的准确率，而后FPN迅速发展成为了目标检测网络重要组成部分，但是现有研究都是认为FPN的成功是因为多尺度特征融合，于是忽略了FPN中分而治之的功能。旷视科技&中科院对FPN重新思考提出YOLOF，YOLOF不采用复杂的特征金字塔-仅使用一级特征进行检测，并提出了两个关键组件Dilated Encoder和Uniform Matching，实现在提升速度的同时保持较高的精度。YOLOF的图像尺寸为608 x 608，在2080Ti上以60 fps的速度运行时可达到44.3 mAP，比YOLOv4快13％。

作者提出了一种快速而直接的单级特征检测框架YOLOF，它由Backbone、Encoder以及Decoder构成，整体结构如下：

1、Backbone：采用Reset和ResNext系列作为的backbone，backbone的输出是C5特征映射。

2、Encoder：我们首先通过在backbone后添加两个投影层在3×3卷积层中然后堆叠四个不同扩张因子的残差模块。

3、Decoder：主要采用了Retinanet的结构，有两处改动：1. regression head 有4个Conv（有BN和ReLU）而 classification head 只有2个Conv（有BN和ReLU）2. 遵循Autoassign，在 regression head 上为每个 anchor 添加一个隐式目标检测。

YOLOR

论文：You Only Learn One Representation: Unified Network for Multiple Tasks

论文链接：https://arxiv.org/abs/2105.04206

代码链接：https://github.com/WongKinYiu/yolor

人类能够根据视觉、听觉、触觉（显性知识）以及过去的经验（隐性知识）来学习和理解物理世界。因此，人类能够利用通过正常学习获得并存储在大脑中的先前学习的丰富经验来有效地处理全新的数据。

基于这一想法，YOLOR 研究论文描述了一种将显性知识（定义为基于给定数据和输入的学习）与潜意识学习的隐性知识相结合的方法。因此，YOLOR 的概念基于将隐性和显性知识编码在一起，类似于哺乳动物大脑如何相互结合处理隐性和显性知识。YOLOR 中提出的统一网络生成统一的表示，以同时为各种任务提供服务。

YOLOR 的统一网络：结合显性知识和隐性知识，为多个任务服务

使该架构发挥作用的三个显着过程是：内核空间对齐、预测优化和具有多任务学习的卷积神经网络 (CNN)。根据结果，当隐性知识被引入到已经用显性知识训练的神经网络中时，网络有利于各种任务的性能。

卷积神经网络 (CNN)通常实现一个特定目标，而它们可以通过训练同时解决多个问题，这正是 YOLOR 的目标。CNN 的创建通常只考虑一个目标。当 CNN 学习如何分析输入以获得输出时，YOLOR 试图让 CNNs (1) 学习如何获得输出以及 (2) 所有不同的输出可能是什么。它可以有多个输出，而不仅仅是一个输出。

结合最先进的方法，YOLOR 实现了与 Scaled YOLOv4 相当的物体检测精度，同时推理速度提高了 88%。这使得 YOLOR 成为现代计算机视觉中最快的物体检测算法之一。在MS COCO数据集上，在相同的推理速度下，YOLOR 的平均精度比 PP-YOLOv2 高 3.8%。

YOLOS

论文：You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection

论文链接：https://arxiv.org/abs/2106.00666v3

代码链接：https://github.com/hustvl/YOLOS

Vision Transformer (ViT) 向我们展示了从 NLP 继承的标准 Transformer 编码器架构可以在大规模图像识别方面表现出色。华中科大通过目标检测重新思考视觉Transformer提出YOLOS，其核心思路是Transformer能否以最少的2D空间结构从纯粹的序列到序列的角度进行2D目标识别。

YOLOS是基于 ViT 架构的对象检测模型，具有尽可能少的修改和归纳偏差。YOLOS 紧跟 ViT 架构，有两个简单的变化：

YOLOS 删除了用于图像分类的 [CLS] 标记，并将一百个随机初始化的检测 [DET] 标记添加到用于对象检测的输入补丁嵌入序列中。
ViT 中使用的图像分类损失被替换为二分匹配损失，以执行类似于 DETR 的对象检测。

YOLOS与一些目标检测器（如 DETR 和 YOLOv4）进行了比较。与高度优化的物体检测器相比，较小的 YOLOS 变体 YOLOS-Ti 实现了令人印象深刻的性能。另一方面，在较大的YOLOS模型中竞争力较低。

YOLOX

论文：YOLOX: Exceeding YOLO Series in 2021

论文链接：https://arxiv.org/abs/2107.08430

代码链接：https://github.com/Megvii-BaseDetection/YOLOX

YOLO模型获取图像并绘制由不同小方块组成的网格。然后从这些小方块中，他们从方块中回归以预测他们应该预测边界框的偏移量。仅这些网格单元就为我们提供了数万个可能的框，但YOLO模型在网格顶部有anchor框。anchor框具有不同的比例，使模型能够检测不同方向的不同大小的对象。

这两者的结合使模型能够检测范围广泛的对象，但它们也带来了计算成本高的问题。YOLO 模型的另一个限制方面是边界框回归和对象检测任务的耦合，这会导致一些权衡。

YOLOv3头和YOLOX使用的解耦头的区别

YOLOX解决了这两个限制，它完全放弃了框锚的构造。这导致计算成本和推理速度的提高。YOLOX 还将 YOLO 检测头解耦为单独的特征通道，用于框坐标回归和对象分类。这导致改进的收敛速度和模型精度。

我们在前面知道，当得到Yolov3 baseline后，作者又添加了一系列的trick，最终改进为Yolox-Darknet53网络结构。

上图即是Yolox-Darknet53网络结构图。

为了便于分析改进点，我们对Yolox-Darknet53网络结构进行拆分，变为四个板块：

① 输入端：Strong augmentation数据增强

② BackBone主干网络：主干网络没有什么变化，还是Darknet53。

③ Neck：没有什么变化，Yolov3 baseline的Neck层还是FPN结构。

④ Prediction：Decoupled Head、End-to-End YOLO、Anchor-free、Multi positives。

在经过一系列的改进后，Yolox-Darknet53最终达到AP47.3的效果。

YOLOP

论文：You Only Look at Once for Panoptic driving Perception

论文链接：https://arxiv.org/abs/2108.11250

代码链接：https://github.com/hustvl/YOLOP

计算机视觉模型是自动驾驶系统的重要组成部分。为了帮助驾驶系统操作车辆，感知系统需要执行诸如分割可行驶区域、检测车道和交通物体等任务。现在有大量最先进的算法可以单独解决这些问题。然而，这些具有很高的计算成本，并且无法对通常用于自动驾驶汽车的嵌入式系统进行实时推理。YOLOP对这些任务采取多任务方法，并利用相关信息构建更快、更准确的解决方案。

YOLOP 架构

YOLOP有一个共享编码器和三个解码器头来解决特定的任务。不同解码器之间没有复杂的共享块，以将计算保持在最低限度，并允许更轻松的端到端训练。它在 BDD100K 数据集上针对三个任务的最新模型进行了测试。YOLOP 的表现优于或匹配最先进的模型。它是第一个在 Jetson TX2 等嵌入式设备上实时同时执行三个全景感知任务并实现最先进性能的模型。

在上述的YOLO变体都具有其各自的特色，在您看来，哪个 YOLO 变体取得了最大的飞跃，请在评论中告诉我们。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉精品课程推荐：

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码) 3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进 4.国内首个面向工业级实战的点云处理课程 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解 6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

重磅！3DCVer-学术论文写作投稿交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

2021 年最受欢迎的 YOLO 变体

最近更新

热门博客

[ 申请 ]友情链接：