HyperAIHyperAI

Command Palette

Search for a command to run...

Anchor DETR:基于Transformer的目标检测查询设计

Yingming Wang Xiangyu Zhang Tong Yang Jian Sun

摘要

在本文中,我们提出了一种面向基于Transformer的物体检测器的新型查询设计。在以往基于Transformer的检测器中,物体查询(object queries)是一组可学习的嵌入向量(embeddings),但这些学习得到的嵌入本身缺乏明确的物理意义,难以解释其关注的具体位置。此外,由于每个物体查询的预测位置并未指向特定的空间模式,导致优化过程困难——即每个查询无法稳定地聚焦于某一特定区域。为解决上述问题,本文提出的查询设计以锚点(anchor points)为基础,而锚点在基于CNN的检测器中已被广泛使用。在此设计下,每个物体查询均专注于其对应锚点附近的物体,从而实现更明确的空间定位。此外,该设计能够支持在单一位置预测多个物体,有效应对“一区域多目标”这一挑战。为进一步提升效率,我们还设计了一种新型注意力机制变体,在保持与标准注意力机制相当或更优性能的同时,显著降低了内存开销。得益于上述查询设计与注意力机制的改进,我们提出的检测器——Anchor DETR,在性能和速度上均优于原始DETR。具体而言,Anchor DETR仅需原始DETR约十分之一的训练轮次(training epochs),即可实现更优的检测效果。例如,在使用ResNet50-DC5特征进行50轮训练时,该模型在MSCOCO数据集上达到了44.2的AP(Average Precision)指标,推理速度高达19 FPS。大量在MSCOCO基准上的实验充分验证了所提方法的有效性。代码已开源,地址为:\url{https://github.com/megvii-research/AnchorDETR}


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供