
摘要
尽管在物体识别方面已经取得了巨大进展,但检测小物体仍然是一个尚未解决的挑战。本文在寻找小人脸的背景下探讨了该问题的三个方面:尺度不变性、图像分辨率和上下文推理的作用。虽然大多数识别方法都力求实现尺度不变性,但识别3像素高的脸与识别300像素高的脸所需的线索本质上是不同的。我们采取了一种不同的方法,为不同尺度训练独立的检测器。为了保持效率,检测器以多任务的方式进行训练:它们利用从单一(深度)特征层次结构中的多个层提取的特征。虽然训练大物体检测器相对直接,但训练小物体检测器仍面临关键挑战。我们证明了上下文的重要性,并定义了利用超大感受野(其中99%的模板扩展到感兴趣对象之外)的模板。最后,我们研究了预训练深度网络中尺度的作用,提供了将针对有限尺度调优的网络外推至极端范围的方法。我们在大规模基准测试的人脸数据集(如FDDB和WIDER FACE)上展示了最先进的结果。特别是与WIDER FACE上的先前工作相比,我们的结果将误差减少了两倍(我们的模型达到了82%的平均精度均值AP,而先前的工作则在29%-64%之间)。