Group DETR v2 : Détection d'objets performante grâce au préentraînement encodeur-décodeur

Nous présentons un détecteur d'objets performant basé sur un préentraînement et un ajustage fin (finetuning) à architecture encodeur-décodeur. Notre méthode, appelée Group DETR v2, repose sur un encodeur vision transformer ViT-Huge~\cite{dosovitskiy2020image}, une variante de DETR appelée DINO~\cite{zhang2022dino}, ainsi que sur une méthode d'entraînement efficace pour DETR, nommée Group DETR~\cite{chen2022group}. Le processus d'entraînement se déroule en trois étapes : préentraînement auto-supervisé et ajustage fin d'un encodeur ViT-Huge sur ImageNet-1K, préentraînement du détecteur sur Object365, puis ajustage fin final sur COCO. Group DETR v2 atteint un score mAP de $\textbf{64,5}$ sur le jeu de test-dev de COCO, établissant ainsi un nouveau record d'état de l'art (SoTA) sur le classement COCO : https://paperswithcode.com/sota/object-detection-on-coco.