6 个月前

摘要

尽管基于深度学习的分类任务通常采用标准化的方法，但回归任务则广泛采用多种不同的技术。在计算机视觉领域，一种特别流行的技术是基于置信度的回归方法，该方法通过对每个输入-目标对（x, y）预测一个置信度值来实现。尽管该方法已展现出优异的性能，但其设计往往依赖具体任务，且所预测的置信度缺乏自然的概率解释。为解决上述问题，本文提出了一种通用且概念简洁的回归方法，具有明确的概率解释。在所提出的方法中，我们构建了一个基于能量的模型来建模条件目标密度 $p(y|x)$ ，并利用深度神经网络从输入-目标对（x, y）中预测未归一化的密度。该模型通过直接最小化对应的负对数似然进行训练，其中负对数似然采用蒙特卡洛采样进行近似。我们在四个计算机视觉回归任务上进行了全面实验，结果表明，所提方法在性能上优于直接回归，以及现有的其他概率化和基于置信度的方法。值得注意的是，将该方法应用于COCO数据集上的目标检测任务时，相比Faster-RCNN，平均精度（AP）提升了2.2%；在边界框估计任务中，应用于视觉跟踪时，达到了新的最先进水平。与基于置信度的方法相比，本方法还被证明可直接推广至更广泛的任务，如年龄估计和头部姿态估计。代码已开源，地址为：https://github.com/fregu856/ebms_regression。