您当前的位置: 首页 >  网络

暂无认证

  • 0浏览

    0关注

    101061博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

CVPR2021 | 基于transformer的视频实例分割网络VisTR

发布时间:2021-03-29 07:00:00 ,浏览量:0

原文:End-to-End Video Instance Segmentation with Transformers

翻译:夏初

摘要:

视频实例分割(VIS)是一项需要同时对视频中感兴趣的对象实例进行分类、分割和跟踪的任务。最近研究人员提出了一个新的基于Transformers的视频实例分割框架VisTR,它将VIS任务看作一个直接的端到端并行序列解码/预测问题。给定一个由多个图像帧组成的视频片段作为输入,VisTR直接输出视频中每个实例的掩码序列。其核心是一种新的、有效的instance sequence匹配与分割策略,它在序列级对实例进行整体监控和分割。VisTR从相似性学习的角度对实例进行分割和跟踪,大大简化了整个流程,与现有方法有很大的不同。

VisTR在现有的VIS模型中速度最高,在YouTubeVIS数据集上使用单一模型的方法中效果最好。这是第一次,研究人员展示了一个更简单,更快的视频实例分割框架建立在Transformer,实现了竞争的准确性。研究人员希望VisTR能推动未来更多的视频理解任务的研究。

研究贡献:

•研究人员提出了一个新的基于Transformers的视频实例分割框架,称为VisTR,它将VIS任务视为一个直接的端到端并行序列解码/预测问题。该框架与现有方法大不相同,大大简化了整个流程。

•VisTR从相似性学习的新角度解决了VIS。实例分割就是学习像素级的相似度,实例跟踪就是学习实例之间的相似度。因此,在相同的实例分割框架下,可以无缝、自然地实现实例跟踪。

•VisTR成功的关键是为研究人员的框架定制了一种新的instance sequence匹配和分割策略。这个精心设计的2策略使

关注
打赏
1655516835
查看更多评论
立即登录/注册

微信扫码登录

0.0493s