17 天前
DINO:面向端到端目标检测的改进去噪锚框DETR
Hao Zhang, Feng Li, Shilong Liu, Lei Zhang, Hang Su, Jun Zhu, Lionel M. Ni, Heung-Yeung Shum

摘要
我们提出 DINO(DETR with Improved deNoising anchOr boxes),一种当前最先进的端到端目标检测器。DINO 通过采用对比式去噪训练策略、混合查询选择方法进行锚框初始化,以及两次前瞻预测机制,显著提升了以往类似 DETR 模型在性能与效率方面的表现。在使用 ResNet-50 主干网络和多尺度特征的情况下,DINO 在 COCO 数据集上仅用 12 个训练周期即达到 49.4 AP,24 个周期时进一步提升至 51.3 AP,相较于此前表现最佳的 DETR 类模型 DN-DETR,分别实现了 +6.0 AP 和 +2.7 AP 的显著提升。DINO 在模型规模和数据规模上均表现出良好的可扩展性。在不依赖额外技巧的前提下,仅在 Objects365 数据集上使用 Swin-L 主干网络进行预训练后,DINO 在 COCO 的 \texttt{val2017}(63.2 AP)和 \texttt{test-dev}(63.3 AP)两个测试集上均取得了当前最优结果。与排行榜上的其他模型相比,DINO 在获得更优性能的同时,大幅减少了模型参数量和预训练数据规模。我们的代码将公开于 \url{https://github.com/IDEACVR/DINO}。