
摘要
可变形部件模型(DPMs)和卷积神经网络(CNNs)是视觉识别中两种广泛使用的工具。它们通常被视为不同的方法:DPMs 是图形模型(马尔可夫随机场),而 CNNs 则是非线性的“黑盒”分类器。在本文中,我们展示了 DPM 可以被表述为 CNN,从而提供了一种将这两种思想结合的新颖综合方法。我们的构建过程包括展开 DPM 推理算法,并将每一步映射到一个等效的(有时是新颖的)CNN 层。从这一视角来看,用学习得到的特征提取器替代 DPM 中常用的图像特征变得自然而然。我们将这种模型称为 DeepPyramid DPM,并通过实验在 PASCAL VOC 数据集上对其进行了验证。DeepPyramid DPM 显著优于基于方向梯度直方图特征(HOG)的 DPM,并且略优于最近引入的 R-CNN 检测系统的类似版本,同时运行速度提高了近一个数量级。