HyperAIHyperAI

Command Palette

Search for a command to run...

YOLO-World : Détection d'objets en temps réel avec vocabulaire ouvert

Tianheng Cheng Lin Song Yixiao Ge Wenyu Liu Xinggang Wang Ying Shan

Résumé

La série de détecteurs You Only Look Once (YOLO) s'est imposée comme des outils efficaces et pratiques. Cependant, leur dépendance aux catégories d'objets prédéfinies et entraînées limite leur applicabilité dans des scénarios ouverts. Pour remédier à cette limitation, nous présentons YOLO-World, une approche innovante qui améliore les capacités de détection à vocabulaire ouvert de YOLO grâce au modèle vision-langue et à l'entraînement préalable sur des ensembles de données à grande échelle. Plus précisément, nous proposons un nouveau Réseau d'Aggrégation de Chemins Vision-Langue Reparamétrable (RepVL-PAN) et une perte contrastive région-texte pour faciliter l'interaction entre les informations visuelles et linguistiques. Notre méthode se distingue par sa capacité à détecter une large gamme d'objets de manière zéro-shot avec une haute efficacité. Sur le jeu de données difficile LVIS, YOLO-World atteint 35,4 AP avec 52,0 FPS sur V100, surpassant ainsi de nombreuses méthodes de pointe en termes de précision et de vitesse. De plus, YOLO-World finement ajusté obtient des performances remarquables sur plusieurs tâches en aval, notamment la détection d'objets et la segmentation d'instances à vocabulaire ouvert.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp