17 天前

Mr. DETR：用于检测Transformer的指导性多路径训练

Chang-Bin Zhang, Yujie Zhong, Kai Han

摘要

现有方法通过引入辅助的“一对多”匹配机制来提升检测Transformer的训练效果。在本工作中，我们将模型视为一个多重任务框架，同时执行“一对一”与“一对多”预测。我们系统地研究了Transformer解码器中各个组件（包括自注意力、交叉注意力和前馈网络）在两种训练目标下的作用。实验结果表明，解码器中的任意独立组件均能有效同时学习两种目标，即使其他组件共享。基于这一发现，我们提出了一种多路径训练机制：设置一条主路径用于“一对一”预测，以及两条辅助路径用于“一对多”预测。我们进一步引入一种新型的指导性自注意力机制，能够动态且灵活地引导对象查询以实现“一对多”预测。在推理阶段，辅助路径被移除，从而确保模型架构和推理开销不受影响。我们在多种基准模型上进行了大量实验，结果均显示一致的性能提升，如图1所示。项目主页：https://visual-ai.github.io/mrdetr