HyperAIHyperAI

Command Palette

Search for a command to run...

LaMI-DETR : Détection à vocabulaire ouvert avec instruction par modèle linguistique

Penghui Du Yu Wang Yifan Sun Luting Wang Yue Liao Gang Zhang Errui Ding Yan Wang Jingdong Wang Si Liu

Résumé

Les méthodes existantes améliorent la détection d’objets à vocabulaire ouvert en exploitant les capacités robustes de reconnaissance à vocabulaire ouvert des modèles vision-langage (VLM), tels que CLIP. Toutefois, deux défis majeurs émergent : (1) un défaut de représentation des concepts, car les noms de catégories dans l’espace textuel de CLIP manquent de connaissances textuelles et visuelles ; (2) une tendance à l’overfitting vis-à-vis des catégories de base, avec une biais de connaissance à vocabulaire ouvert orienté vers les catégories de base lors du transfert des VLM vers les détecteurs. Pour relever ces défis, nous proposons la stratégie d’instruction par modèle linguistique (LaMI), qui exploite les relations entre concepts visuels et les intègre dans un détecteur simple mais efficace inspiré de DETR, appelé LaMI-DETR. LaMI utilise GPT pour construire des concepts visuels et T5 pour explorer les similitudes visuelles entre catégories. Ces relations inter-catégoriques améliorent la représentation des concepts et préviennent l’overfitting aux catégories de base. Des expériences approfondies valident la performance supérieure de notre approche par rapport aux méthodes existantes dans un cadre rigoureux, sans recourir à des ressources d’entraînement externes. LaMI-DETR atteint un score AP de boîte rare de 43,4 sur OV-LVIS, dépassant ainsi le meilleur résultat précédent de 7,8 points AP de boîte rare.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp