CV新时代已经来临

发布时间：2021-12-06 07:00:00 ，浏览量：4

来源 | 极市平台

自ViT问世以来，CV开始进入膨胀期，也迎来了新一轮的红利，开始了类似于NLP中Transformer的发展趋势。从CNN开始彻底走向ViT，从supervised到self-supervised，再到大数据预训练，ViT的变种不断增加，带来的性能也在持续提升。

Transformer和ViT的引用数量

但问题也随之而来，ViT是最优的结构吗？真的需要这么多数据吗？在ViT的原始论文中已经揭露了许多问题，比如大模型对优化的选择非常敏感，同时需要更多的数据。对于优化问题，已经有人提出用卷积流代替patch流，在早期更有效地编码局部特征，这种方式不仅解决了优化问题同时提升了性能。对于数据量，DeiT和SwinT已经给出了一种数据有效性的ViT模型，但其中或多或少都引入了卷积的inductive bias，这不得不使我们重新考虑ViT结构：卷积流、分层设计甚至局部注意力。

另外，越来越多CV任务已经开始转向Transformer架构，像目标检测中的DETR、语义分割中Segformer等；或者仅仅使用ViT作为backbone，比如SwinT已经证明了其在下游任务的有效性和通用性，已经可以完全替代CNN作为新一代的backbone。对于多模态任务，是否也需要朝着ViT发展，或者使用ViT作为backbone？事实上，对于captioning已经有这方面的工作，像CPTR直接用ViT替换Encoder，初步看效果不错，但探索的仍然不够充分。

最后谈谈预训练，在ViT原始论文中使用了大规模JFT数据集，supervised预训练为图片分类带来了极大的提升，同时也证明了ViT是data-hungry的模型。然而，预训练的本质是视觉表征学习，这亦可以通过self-supervised的方式进行预训练学习，主要可以根据pretext task的类型分为两种方法：对比式预训练和生成式预训练：对比式预训练代表主要有SimCLR和MoCo等，它们都是衡量相似度以提炼视觉特征；而生成式预训练多数是效仿Bert或GPT，以Mask的机制重建或生成原始图像，典型的代表有iGPT和BEiT等，其实早在ViT论文中也做过类似的预训练，但没有很work。直到最近何凯明大神的MAE出现，打开了Mask生成式预训练的大门，通过一个简单模型在小数据量下达到超越监督式的效果。

另一方面，多模态预训练最近也在不断兴起，视觉语言预训练（VLP）旨在将视觉和语言特征对齐，学习更好的联合嵌入表示。VLP主要可以分为双流和单流：双流模型通常有两个Encoder将视觉和语言分开编码，在晚期进行交互，如LXMERT；单流模型通常将视觉和语言送入同一个Encoder，在早期进行交互，如微软的Oscar，不过这些都类似于Bert的Mask预训练方法。另外，还有基于Encoder-Decoder的生成式预训练方法，像Google最新提出的SimVLM，其模型简单且更为通用，在6个多模态任务下都达到了惊人的sota。这些VLP模型的最主要特点就是大规模数据集，区别在于不同的pretext tasks，而且这些模型相对简单，但带来的效果却十分显著，这也许表明了：在大数据量的背景下简单架构足以学习到高质量的多模态表示。这不得不让我们思考多模态任务未来的发展方向，是否需要朝着预训练方向前进，或者使用一些预训练好的组件。

计算机视觉领域蓬勃发展，作为一名初学者，恰逢其时，踏入这个崭新的时代，这是多么幸运！

本文仅做学术分享，如有侵权，请联系删文。

3D视觉精品课程推荐：

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码) 3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进 4.国内首个面向工业级实战的点云处理课程 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解 6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

重磅！3DCVer-学术论文写作投稿交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

关注

打赏

1655516835

查看更多评论

CV新时代已经来临

最近更新

热门博客

[ 申请 ]友情链接：