HyperAIHyperAI
vor 2 Monaten

DEIM: DETR mit verbessertem Matching für eine schnellere Konvergenz

Shihua Huang; Zhichao Lu; Xiaodong Cun; Yongjun Yu; Xiao Zhou; Xi Shen
DEIM: DETR mit verbessertem Matching für eine schnellere Konvergenz
Abstract

Wir stellen DEIM vor, einen innovativen und effizienten Trainingsrahmen, der entwickelt wurde, um die Konvergenz bei Echtzeit-Objekterkennung mit Transformer-basierten Architekturen (DETR) zu beschleunigen. Um das dünn besetzte Supervision, das in der ein-zu-ein (O2O) Zuordnung von DETR-Modellen inhärent ist, zu mindern, verwendet DEIM eine dichte O2O-Zuordnungsstrategie. Dieser Ansatz erhöht die Anzahl positiver Beispiele pro Bild durch die Einbeziehung zusätzlicher Ziele unter Verwendung standardisierter Datenverstärkungstechniken. Obwohl die dichte O2O-Zuordnung die Konvergenz beschleunigt, führt sie auch zu zahlreichen Matches von geringer Qualität, die die Leistung beeinträchtigen könnten. Um dies zu beheben, schlagen wir den Matchability-Aware Loss (MAL) vor, eine neuartige Verlustfunktion, die Matches auf verschiedenen Qualitätsstufen optimiert und so die Effektivität der dichten O2O-Zuordnung verbessert. Ausführliche Experimente auf dem COCO-Datensatz bestätigen die Wirksamkeit von DEIM. Bei Integration in RT-DETR und D-FINE verbessert es konsistent die Leistung und reduziert gleichzeitig die Trainingszeit um 50 %. Besonders auffällig ist, dass DEIM zusammen mit RT-DETRv2 innerhalb eines Tages Training auf einer NVIDIA 4090 GPU eine AP von 53,2 % erreicht. Zudem übertreffen DEIM-geschulte Echtzeitmodelle führende Echtzeit-Objekterkennungssysteme; sowohl DEIM-D-FINE-L als auch DEIM-D-FINE-X erzielen AP-Werte von 54,7 % und 56,5 % bei 124 und 78 FPS auf einer NVIDIA T4 GPU, ohne zusätzliche Daten zu benötigen. Wir sind der Überzeugung, dass DEIM einen neuen Standard für Fortschritte in der Echtzeit-Objekterkennung setzt. Unser Code und vortrainierte Modelle sind unter https://github.com/ShihuaHuang95/DEIM verfügbar.