
摘要
我们将图像中的目标检测问题定义为估计一个非常大但极其稀疏的边界框依赖概率分布。随后,我们确定了一种稀疏分布估计方案——定向稀疏采样(Directed Sparse Sampling),并将其应用于单一端到端的基于卷积神经网络(CNN)的检测模型中。该方法扩展并形式化了先前的最先进检测模型,同时更加注重高评估率和减少手动工程设计。我们引入了两项创新:基于角点的感兴趣区域估计器和基于反卷积的CNN模型。最终模型具有场景适应性,不需要手动定义参考边界框,并在MSCOCO、Pascal VOC 2007和Pascal VOC 2012数据集上以实时评估率取得了极具竞争力的结果。进一步分析表明,当需要细粒度的目标定位时,我们的模型表现尤为出色。我们认为这一优势源于相对于其他方法,可用的感兴趣区域集合显著更大。源代码可从以下地址获取:https://github.com/lachlants/denet