vor 17 Tagen

DINO: DETR mit verbesserten de-noising Anchor Boxes für die end-to-end Objekterkennung

Hao Zhang, Feng Li, Shilong Liu, Lei Zhang, Hang Su, Jun Zhu, Lionel M. Ni, Heung-Yeung Shum

Abstract

Wir präsentieren DINO (\textbf{D}ETR mit \textbf{I}mproviertem de\textbf{N}ois-ing-\textbf{O}r-ientierten Boxen-Anchor), einen state-of-the-art end-to-end Objekterkennungsalgorithmus. DINO übertrifft bisherige DETR-ähnliche Modelle hinsichtlich Leistungsfähigkeit und Effizienz durch eine kontrastive Methode für das Denoisings-Training, eine gemischte Abfrageauswahl für die Anchor-Initialisierung sowie ein „Zwei-Schritte-Vorwärts“-Schema für die Box-Vorhersage. Auf dem COCO-Datensatz mit einem ResNet-50-Backbone und mehrskaligen Merkmalen erreicht DINO eine AP von $49{,}4$ nach $12$ Epochen und $51{,}3$ nach $24$ Epochen, was einer signifikanten Verbesserung um $\textbf{+6{,}0}$\textbf{AP} und $\textbf{+2{,}7}$\textbf{AP} gegenüber DN-DETR, dem bisher besten DETR-ähnlichen Modell, entspricht. DINO skaliert sowohl in Bezug auf Modellgröße als auch Datengröße sehr gut. Ohne zusätzliche Tricks erreicht DINO nach Vortrainierung auf dem Objects365-Datensatz mit einem SwinL-Backbone die besten Ergebnisse sowohl auf COCO \texttt{val2017} ($\textbf{63{,}2}$\textbf{AP}) als auch auf \texttt{test-dev} (\textbf{$\textbf{63{,}3}$AP). Im Vergleich zu anderen Modellen auf der Leaderboard-Liste reduziert DINO deutlich seine Modellgröße und die Größe des Vortrainingsdatensatzes, während es gleichzeitig bessere Ergebnisse erzielt. Der Quellcode wird unter \url{https://github.com/IDEACVR/DINO} verfügbar sein.