论文笔记_S2D.39_2015-ICCV-条件随机场作为递归神经网络(CRF-RNN)

惊鸿一博发布时间：2020-10-27 22:34:13 ，浏览量：5

基本情况

题目: Conditional Random Fields as Recurrent Neural Networks

出处：Zheng, S., Jayasumana, S., Romera-Paredes, B., Vineet, V., Su, Z., Du, D., ... & Torr, P. H. (2015). Conditional random fields as recurrent neural networks. In Proceedings of the IEEE international conference on computer vision (pp. 1529-1537).

Google引用次数：2133 （2020-10-27）

摘要

像素级标记任务，如语义分割，在图像理解中扮演核心角色。最近的一些方法试图利用深度学习技术来处理图像识别的像素级标记任务。这种方法的一个核心问题是，

深度学习技术在描绘视觉对象（visual objects）方面的能力有限。

为了解决这个问题，

我们引入了一种新的卷积神经网络，它结合了卷积神经网络(CNNs)和基于条件随机场(CRFs)的概率图模型的优点。
为此，我们将具有高斯二元势函数和均值近似推理的条件随机场，公式化为递归神经网络（we formulate Conditional Random Fields with Gaussian pairwise potentials and mean-field approximate inference as Recurrent Neural Networks）。这个网络称为CRF-RNN，
- 然后作为CNN的一部分插入，得到一个同时具有CNNs和CRFs特性的深度网络。

重要的是，我们的系统完全集成了CRF建模和CNNs，使得用通常的反向传播算法、端到端训练整个深度网络成为可能，避免了离线后处理方法来描绘物体。我们将所提出的方法应用于语义图像分割问题，在具有挑战性的Pascal VOC 2012分割基准上获得了最优结果。

介绍

诸如语义图像分割或深度估计之类的低级计算机视觉问题通常涉及为图像中的每个像素分配标签。虽然用于对单个像素进行分类的特征表示在此任务中起着重要的作用，但在分配标签时要考虑诸如图像边缘，外观一致性和空间一致性之类的因素以获取准确和精确的结果，同样重要。

设计强大的特征表示是像素级标注问题的关键挑战。该主题的工作包括：

TextonBoost [50]，
TextonForest [49]和
基于随机森林的分类器[48]。

最近，在许多高级计算机视觉任务（例如图像识别[29]和对象检测[19]）中，诸如大规模深度卷积神经网络（CNN）等有监督的深度学习方法已经取得了巨大的成功。这激发了探索使用CNN解决像素级标记问题的动机。关键见解是为像素级标记任务学习端到端的强大功能表示，而不是通过启发式参数调整来手工制作功能。实际上，许多最近的方法，包括特别有趣的著作FCN [35]和DeepLab [9]，都显示出通过将基于CNN的最新图像分类器用于语义分割问题，可以显着提高准确性。

但是，在将专为高级计算机视觉任务（例如对象识别）设计的CNN调整为像素级标记任务时，存在巨大挑战。

首先，传统的CNN具有卷积滤波器，具有大的感知域（large receptive fields），因此在重构以产生像素级标签时会产生粗糙的输出[35]。 CNN中maxpooling层的存在进一步降低了获得精细分段输出的机会[9]。例如，这可能导致语义分割任务中出现非清晰的边界和类似斑点的形状。
其次，CNN缺乏平滑度约束，而平滑度约束鼓励相似像素之间的标签一致以及标签输出的空间和外观一致性。缺乏这种平滑度约束会导致对象轮廓不佳，以及分割输出中的杂散区域较小[57、56、30、37]。

在深度学习技术进步的另一条轨道上，概率图模型（PGM）已被开发为提高像素级标记任务准确性的有效方法。特别是，马尔可夫随机场（MRF）及其变体条件随机场（CRF）已在该领域获得了广泛的成功[30，27]，并已成为计算机视觉中最成功的图形模型之一。用于语义标记的CRF推理的关键思想是将标签分配问题公式化为一个概率性推理问题，其中包含诸如类似像素之间的标签一致性之类的假设。 CRF推理能够完善弱和粗像素级的标签预测，以产生清晰的边界和细粒度的细分。

因此，从直觉上讲，CRF可用于克服将CNN用于像素级标记任务的缺点。一种利用CRF改进CNN产生的语义标记结果的方法是将CRF推论作为与CNN训练无关的后处理步骤来应用[9]。可以说，这没有充分利用CRF的强度，因为它没有在训练阶段，与深层网络集成在一起，深层网络无法使其权重适应CRF行为。

本文针对像素级语义图像分割问题提出了端到端的深度学习解决方案。我们的公式在一个统一的框架中结合了CNN和基于CRF的图形模型的优势。更具体地说，

我们将具有高斯二元势函数的密集CRF（dense CRF）的平均场推理（mean-field inference），公式化为循环神经网络（RNN），该神经网络可以在向前传递中细化传统CNN的粗略输出，同时在训练过程中将误差微分传回CNN。
重要的是，使用我们的公式，可以使用常规的反向传播算法对包括传统CNN和用于CRF推理的RNN在内的整个深度网络进行端到端训练。

可以说，经过适当的训练后，拟议的网络应优于将CRF推理作为对经过预训练的CNN产生的独立像素级预测进行后处理的系统。我们的实验评估证实确实如此。

关注

打赏

1688896170

查看更多评论

论文笔记_S2D.39_2015-ICCV-条件随机场作为递归神经网络(CRF-RNN)

[ 申请 ]友情链接：