Command Palette
Search for a command to run...
Détection de tout via la prédiction du prochain point
Qing Jiang Junan Huo Xingyu Chen Yuda Xiong Zhaoyang Zeng Yihao Chen Tianhe Ren Junzhi Yu Lei Zhang

Résumé
La détection d'objets a longtemps été dominée par des modèles traditionnels basés sur la régression de coordonnées, tels que YOLO, DETR et Grounding DINO. Bien que des efforts récents aient cherché à exploiter les modèles de langage et de vision multimodaux (MLLM) pour aborder cette tâche, ceux-ci rencontrent encore des difficultés telles qu’un taux de rappel faible, des prédictions redondantes, ou un désalignement des coordonnées. Dans ce travail, nous comblons cet écart en proposant Rex-Omni, un MLLM d’échelle 3B qui atteint des performances de perception d’objets parmi les meilleures à ce jour. Sur des benchmarks comme COCO et LVIS, Rex-Omni atteint des performances comparables, voire supérieures, à celles des modèles basés sur la régression (par exemple, DINO, Grounding DINO) dans un cadre zéro-shot. Ce résultat est rendu possible grâce à trois innovations clés : 1) Formulation de la tâche : nous utilisons des jetons spéciaux pour représenter des coordonnées quantifiées allant de 0 à 999, ce qui réduit la difficulté d’apprentissage du modèle et améliore l’efficacité des jetons pour la prédiction des coordonnées ; 2) Moteurs de données : nous avons conçu plusieurs moteurs de données pour générer des données de localisation, de référence visuelle et de pointage de haute qualité, offrant ainsi une supervision sémantiquement riche pour l’entraînement ; 3) Pipelines d’entraînement : nous mettons en œuvre un processus d’entraînement en deux étapes, combinant un fine-tuning supervisé sur 22 millions d’exemples avec un post-entraînement par renforcement basé sur GRPO. Ce post-entraînement par renforcement exploite des récompenses sensibles à la géométrie afin de combler efficacement le fossé entre la prédiction discrète et continue des coordonnées, d’améliorer la précision des boîtes englobantes, et de réduire les comportements indésirables tels que les prédictions redondantes, qui proviennent de la nature guidée par un enseignant de la phase initiale de fine-tuning supervisé. Au-delà de la détection conventionnelle, la capacité intrinsèque de Rex-Omni à comprendre le langage lui permet de réaliser des tâches polyvalentes telles que la référence d’objets, le pointage visuel, le prompting visuel, la localisation dans les interfaces graphiques (GUI grounding), la référence spatiale, la reconnaissance optique de caractères (OCR) et la localisation de points clés, toutes évaluées de manière systématique sur des benchmarks dédiés. Nous pensons que Rex-Omni ouvre la voie à des systèmes de perception visuelle plus polyvalents et plus sensibles au langage.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.