Command Palette
Search for a command to run...
DINO: DETR mit verbesserten de-noising Anchor Boxes für die end-to-end Objekterkennung
DINO: DETR mit verbesserten de-noising Anchor Boxes für die end-to-end Objekterkennung
Hao Zhang Feng Li Shilong Liu Lei Zhang Hang Su Jun Zhu Lionel M. Ni Heung-Yeung Shum
Zusammenfassung
Wir präsentieren DINO (\textbf{D}ETR mit \textbf{I}mproviertem de\textbf{N}ois-ing-\textbf{O}r-ientierten Boxen-Anchor), einen state-of-the-art end-to-end Objekterkennungsalgorithmus. DINO übertrifft bisherige DETR-ähnliche Modelle hinsichtlich Leistungsfähigkeit und Effizienz durch eine kontrastive Methode für das Denoisings-Training, eine gemischte Abfrageauswahl für die Anchor-Initialisierung sowie ein „Zwei-Schritte-Vorwärts“-Schema für die Box-Vorhersage. Auf dem COCO-Datensatz mit einem ResNet-50-Backbone und mehrskaligen Merkmalen erreicht DINO eine AP von 49,4 nach 12 Epochen und 51,3 nach 24 Epochen, was einer signifikanten Verbesserung um +6,0\textbf{AP} und +2,7\textbf{AP} gegenüber DN-DETR, dem bisher besten DETR-ähnlichen Modell, entspricht. DINO skaliert sowohl in Bezug auf Modellgröße als auch Datengröße sehr gut. Ohne zusätzliche Tricks erreicht DINO nach Vortrainierung auf dem Objects365-Datensatz mit einem SwinL-Backbone die besten Ergebnisse sowohl auf COCO \texttt{val2017} (63,2\textbf{AP}) als auch auf \texttt{test-dev} (\textbf{63,3AP). Im Vergleich zu anderen Modellen auf der Leaderboard-Liste reduziert DINO deutlich seine Modellgröße und die Größe des Vortrainingsdatensatzes, während es gleichzeitig bessere Ergebnisse erzielt. Der Quellcode wird unter \url{https://github.com/IDEACVR/DINO} verfügbar sein.