DEIM: DETR의 개선된 매칭으로 빠른 수렴 실현

우리는 실시간 객체 검출에서 Transformer 기반 아키텍처(DETR)의 수렴 속도를 가속화하기 위해 설계된 혁신적이고 효율적인 훈련 프레임워크인 DEIM을 소개합니다. DETR 모델에서 고유한 일대일(O2O) 매칭의 희소 감독 문제를 완화하기 위해 DEIM은 추가 타겟을 포함하여 표준 데이터 증강 기법을 사용하는 밀집형 O2O 매칭 전략을 채택합니다. 이 방법은 이미지당 양성 샘플의 수를 늘리지만, 동시에 많은 저품질 매칭을 도입하여 성능에 영향을 줄 수 있습니다. 이를 해결하기 위해 우리는 다양한 품질 수준에서 매칭을 최적화하여 밀집형 O2O의 효과성을 높이는 새로운 손실 함수인 Matchability-Aware Loss(MAL)를 제안합니다. COCO 데이터셋에서 수행된 광범위한 실험들은 DEIM의 유효성을 입증합니다. RT-DETR와 D-FINE에 통합될 때, DEIM은 훈련 시간을 50% 단축시키면서 성능을 지속적으로 향상시킵니다. 특히, RT-DETRv2와 결합되었을 때, DEIM은 NVIDIA 4090 GPU에서 하루 만에 53.2% AP를 달성하였습니다. 또한, DEIM으로 훈련된 실시간 모델들은 추가 데이터 없이 NVIDIA T4 GPU에서 각각 124 FPS와 78 FPS로 54.7%와 56.5% AP를 기록한 DEIM-D-FINE-L과 DEIM-D-FINE-X가 선두 실시간 객체 검출기들을 능가하였습니다. 우리는 DEIM이 실시간 객체 검출 분야의 발전에 새로운 기준점을 설정할 것으로 믿습니다. 우리의 코드와 사전 훈련된 모델은 https://github.com/ShihuaHuang95/DEIM에서 제공됩니다.