8 个月前

摘要

近期提出的DETR方法将Transformer编码器-解码器架构应用于目标检测任务，并取得了令人瞩目的性能表现。本文针对该方法训练收敛速度慢这一关键问题，提出了一种用于加速DETR训练的条件交叉注意力机制。我们的方法受到如下观察的启发：DETR中的交叉注意力机制高度依赖内容嵌入来定位目标的四个边界点并预测边界框，这进一步加剧了对高质量内容嵌入的需求，从而提高了训练难度。为此，我们提出名为“条件DETR”（Conditional DETR）的方法，该方法从解码器嵌入中学习一种条件空间查询，用于解码器多头交叉注意力机制。其优势在于，通过引入条件空间查询，每个交叉注意力头能够聚焦于一个特定区域带（band），例如某个目标边界点或边界框内部的特定区域。这一机制显著缩小了用于定位目标特定区域的空间范围，从而降低了对内容嵌入的依赖性，有效缓解了训练过程中的优化挑战。实验结果表明，相较于原始DETR，条件DETR在R50和R101骨干网络上训练收敛速度提升6.7倍，在更强的DC5-R50和DC5-R101骨干网络上则提升达10倍。代码已开源，地址为：https://github.com/Atten4Vis/ConditionalDETR。

源 PDF