17 天前
基于Transformer的端到端目标检测
Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko

摘要
我们提出一种新方法,将目标检测问题直接视为集合预测任务。该方法简化了检测流程,有效消除了许多人工设计的组件,例如非极大值抑制(non-maximum suppression)或锚点(anchor)生成等,这些组件通常用于显式编码我们对任务的先验知识。新框架——称为DEtection TRansformer(DETR)——的核心组件包括一种基于集合的全局损失函数,该函数通过二分图匹配机制强制实现唯一预测,以及一个基于Transformer的编码器-解码器架构。给定一组固定且可学习的小规模对象查询(object queries),DETR能够并行地推理图像中对象之间的相互关系以及全局上下文信息,从而直接输出最终的预测集合。该模型在概念上简洁明了,且无需依赖专用库,这与许多其他现代检测器不同。在具有挑战性的COCO目标检测数据集上,DETR的精度和运行效率均达到了与成熟且高度优化的Faster R-CNN基准相当的水平。此外,DETR可轻松推广至统一的全景分割(panoptic segmentation)任务,并显著优于现有竞争性基线方法。相关训练代码与预训练模型已开源,地址为:https://github.com/facebookresearch/detr。