YOLO-World : Détection d'objets en temps réel avec vocabulaire ouvert

La série de détecteurs You Only Look Once (YOLO) s'est imposée comme des outils efficaces et pratiques. Cependant, leur dépendance aux catégories d'objets prédéfinies et entraînées limite leur applicabilité dans des scénarios ouverts. Pour remédier à cette limitation, nous présentons YOLO-World, une approche innovante qui améliore les capacités de détection à vocabulaire ouvert de YOLO grâce au modèle vision-langue et à l'entraînement préalable sur des ensembles de données à grande échelle. Plus précisément, nous proposons un nouveau Réseau d'Aggrégation de Chemins Vision-Langue Reparamétrable (RepVL-PAN) et une perte contrastive région-texte pour faciliter l'interaction entre les informations visuelles et linguistiques. Notre méthode se distingue par sa capacité à détecter une large gamme d'objets de manière zéro-shot avec une haute efficacité. Sur le jeu de données difficile LVIS, YOLO-World atteint 35,4 AP avec 52,0 FPS sur V100, surpassant ainsi de nombreuses méthodes de pointe en termes de précision et de vitesse. De plus, YOLO-World finement ajusté obtient des performances remarquables sur plusieurs tâches en aval, notamment la détection d'objets et la segmentation d'instances à vocabulaire ouvert.