HyperAIHyperAI
il y a 17 jours

DINO : DETR avec des boîtes limites de débruitage améliorées pour une détection d'objets bout-en-bout

Hao Zhang, Feng Li, Shilong Liu, Lei Zhang, Hang Su, Jun Zhu, Lionel M. Ni, Heung-Yeung Shum
DINO : DETR avec des boîtes limites de débruitage améliorées pour une détection d'objets bout-en-bout
Résumé

Nous présentons DINO (\textbf{D}ETR avec \textbf{I}mprovement du \textbf{N}oisage par \textbf{O}rientation des boîtes d'ancrage), un détecteur d'objets end-to-end de pointe. DINO améliore les performances et l'efficacité des modèles précédents du type DETR grâce à une approche contrastive pour l'entraînement avec débruitage, une méthode mixte de sélection des requêtes pour l'initialisation des ancres, ainsi qu'un schéma de prédiction de boîtes avec double anticipation. DINO atteint une précision moyenne de $49,4$ AP en $12$ époques et $51,3$ AP en $24$ époques sur COCO, en utilisant un modèle de base ResNet-50 et des caractéristiques multi-échelles, ce qui représente une amélioration significative de $\textbf{+6,0}$\textbf{AP} et $\textbf{+2,7}$\textbf{AP}, respectivement, par rapport à DN-DETR, le meilleur modèle précédent du type DETR. DINO se généralise efficacement à la fois à la taille du modèle et à la taille des données. Sans recourir à des ajouts complexes, après pré-entraînement sur le jeu de données Objects365 avec un modèle de base SwinL, DINO obtient les meilleurs résultats sur COCO \texttt{val2017} ($\textbf{63,2}$\textbf{AP}) et \texttt{test-dev} (\textbf{$\textbf{63,3}$AP}). Par rapport aux autres modèles classés, DINO réduit considérablement sa taille de modèle et la taille des données utilisées pour le pré-entraînement tout en atteignant des performances supérieures. Notre code sera disponible à l'adresse \url{https://github.com/IDEACVR/DINO}.