HyperAIHyperAI
il y a 17 jours

Group DETR v2 : Détection d'objets performante grâce au préentraînement encodeur-décodeur

Qiang Chen, Jian Wang, Chuchu Han, Shan Zhang, Zexian Li, Xiaokang Chen, Jiahui Chen, Xiaodi Wang, Shuming Han, Gang Zhang, Haocheng Feng, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang
Group DETR v2 : Détection d'objets performante grâce au préentraînement encodeur-décodeur
Résumé

Nous présentons un détecteur d'objets performant basé sur un préentraînement et un ajustage fin (finetuning) à architecture encodeur-décodeur. Notre méthode, appelée Group DETR v2, repose sur un encodeur vision transformer ViT-Huge~\cite{dosovitskiy2020image}, une variante de DETR appelée DINO~\cite{zhang2022dino}, ainsi que sur une méthode d'entraînement efficace pour DETR, nommée Group DETR~\cite{chen2022group}. Le processus d'entraînement se déroule en trois étapes : préentraînement auto-supervisé et ajustage fin d'un encodeur ViT-Huge sur ImageNet-1K, préentraînement du détecteur sur Object365, puis ajustage fin final sur COCO. Group DETR v2 atteint un score mAP de $\textbf{64,5}$ sur le jeu de test-dev de COCO, établissant ainsi un nouveau record d'état de l'art (SoTA) sur le classement COCO : https://paperswithcode.com/sota/object-detection-on-coco.

Group DETR v2 : Détection d'objets performante grâce au préentraînement encodeur-décodeur | Articles de recherche récents | HyperAI