2 个月前

DEIM:具有改进匹配以实现快速收敛的DETR

Shihua Huang; Zhichao Lu; Xiaodong Cun; Yongjun Yu; Xiao Zhou; Xi Shen
DEIM:具有改进匹配以实现快速收敛的DETR
摘要

我们介绍了一种创新且高效的训练框架——DEIM,旨在加速基于Transformer架构(DETR)的实时目标检测模型的收敛速度。为了缓解DETR模型中一对一(O2O)匹配固有的稀疏监督问题,DEIM采用了密集O2O匹配策略。该方法通过引入额外的目标并使用标准的数据增强技术,增加了每张图像中的正样本数量。尽管密集O2O匹配可以加快收敛速度,但它也引入了大量低质量的匹配,可能影响性能。为了解决这一问题,我们提出了一种新的损失函数——Matchability-Aware Loss(MAL),该损失函数在不同质量水平上优化匹配,从而增强了密集O2O的有效性。在COCO数据集上的广泛实验验证了DEIM的有效性。当与RT-DETR和D-FINE结合时,DEIM不仅显著提升了性能,还使训练时间减少了50%。特别值得一提的是,与RT-DETRv2搭配使用时,DEIM仅需在NVIDIA 4090 GPU上训练一天即可达到53.2%的AP值。此外,经过DEIM训练的实时模型在性能上超过了领先的实时目标检测器,其中DEIM-D-FINE-L和DEIM-D-FINE-X分别在NVIDIA T4 GPU上以124 FPS和78 FPS的速度达到了54.7%和56.5%的AP值,而无需额外数据。我们认为DEIM为实时目标检测领域的进步设定了新的基准。我们的代码和预训练模型可在https://github.com/ShihuaHuang95/DEIM获取。