Command Palette
Search for a command to run...
Anchor DETR:基于Transformer的目标检测查询设计
Anchor DETR:基于Transformer的目标检测查询设计
Yingming Wang Xiangyu Zhang Tong Yang Jian Sun
摘要
在本文中,我们提出了一种面向基于Transformer的物体检测器的新型查询设计。在以往基于Transformer的检测器中,物体查询(object queries)是一组可学习的嵌入向量(embeddings),但这些学习得到的嵌入本身缺乏明确的物理意义,难以解释其关注的具体位置。此外,由于每个物体查询的预测位置并未指向特定的空间模式,导致优化过程困难——即每个查询无法稳定地聚焦于某一特定区域。为解决上述问题,本文提出的查询设计以锚点(anchor points)为基础,而锚点在基于CNN的检测器中已被广泛使用。在此设计下,每个物体查询均专注于其对应锚点附近的物体,从而实现更明确的空间定位。此外,该设计能够支持在单一位置预测多个物体,有效应对“一区域多目标”这一挑战。为进一步提升效率,我们还设计了一种新型注意力机制变体,在保持与标准注意力机制相当或更优性能的同时,显著降低了内存开销。得益于上述查询设计与注意力机制的改进,我们提出的检测器——Anchor DETR,在性能和速度上均优于原始DETR。具体而言,Anchor DETR仅需原始DETR约十分之一的训练轮次(training epochs),即可实现更优的检测效果。例如,在使用ResNet50-DC5特征进行50轮训练时,该模型在MSCOCO数据集上达到了44.2的AP(Average Precision)指标,推理速度高达19 FPS。大量在MSCOCO基准上的实验充分验证了所提方法的有效性。代码已开源,地址为:\url{https://github.com/megvii-research/AnchorDETR}。