Command Palette
Search for a command to run...
DEIM: DETR mit verbessertem Matching für eine schnellere Konvergenz
DEIM: DETR mit verbessertem Matching für eine schnellere Konvergenz
Shihua Huang Zhichao Lu Xiaodong Cun Yongjun Yu Xiao Zhou Xi Shen
Zusammenfassung
Wir stellen DEIM vor, einen innovativen und effizienten Trainingsrahmen, der entwickelt wurde, um die Konvergenz bei Echtzeit-Objekterkennung mit Transformer-basierten Architekturen (DETR) zu beschleunigen. Um das dünn besetzte Supervision, das in der ein-zu-ein (O2O) Zuordnung von DETR-Modellen inhärent ist, zu mindern, verwendet DEIM eine dichte O2O-Zuordnungsstrategie. Dieser Ansatz erhöht die Anzahl positiver Beispiele pro Bild durch die Einbeziehung zusätzlicher Ziele unter Verwendung standardisierter Datenverstärkungstechniken. Obwohl die dichte O2O-Zuordnung die Konvergenz beschleunigt, führt sie auch zu zahlreichen Matches von geringer Qualität, die die Leistung beeinträchtigen könnten. Um dies zu beheben, schlagen wir den Matchability-Aware Loss (MAL) vor, eine neuartige Verlustfunktion, die Matches auf verschiedenen Qualitätsstufen optimiert und so die Effektivität der dichten O2O-Zuordnung verbessert. Ausführliche Experimente auf dem COCO-Datensatz bestätigen die Wirksamkeit von DEIM. Bei Integration in RT-DETR und D-FINE verbessert es konsistent die Leistung und reduziert gleichzeitig die Trainingszeit um 50 %. Besonders auffällig ist, dass DEIM zusammen mit RT-DETRv2 innerhalb eines Tages Training auf einer NVIDIA 4090 GPU eine AP von 53,2 % erreicht. Zudem übertreffen DEIM-geschulte Echtzeitmodelle führende Echtzeit-Objekterkennungssysteme; sowohl DEIM-D-FINE-L als auch DEIM-D-FINE-X erzielen AP-Werte von 54,7 % und 56,5 % bei 124 und 78 FPS auf einer NVIDIA T4 GPU, ohne zusätzliche Daten zu benötigen. Wir sind der Überzeugung, dass DEIM einen neuen Standard für Fortschritte in der Echtzeit-Objekterkennung setzt. Unser Code und vortrainierte Modelle sind unter https://github.com/ShihuaHuang95/DEIM verfügbar.