LaMI-DETR : Détection à vocabulaire ouvert avec instruction par modèle linguistique

Les méthodes existantes améliorent la détection d’objets à vocabulaire ouvert en exploitant les capacités robustes de reconnaissance à vocabulaire ouvert des modèles vision-langage (VLM), tels que CLIP. Toutefois, deux défis majeurs émergent : (1) un défaut de représentation des concepts, car les noms de catégories dans l’espace textuel de CLIP manquent de connaissances textuelles et visuelles ; (2) une tendance à l’overfitting vis-à-vis des catégories de base, avec une biais de connaissance à vocabulaire ouvert orienté vers les catégories de base lors du transfert des VLM vers les détecteurs. Pour relever ces défis, nous proposons la stratégie d’instruction par modèle linguistique (LaMI), qui exploite les relations entre concepts visuels et les intègre dans un détecteur simple mais efficace inspiré de DETR, appelé LaMI-DETR. LaMI utilise GPT pour construire des concepts visuels et T5 pour explorer les similitudes visuelles entre catégories. Ces relations inter-catégoriques améliorent la représentation des concepts et préviennent l’overfitting aux catégories de base. Des expériences approfondies valident la performance supérieure de notre approche par rapport aux méthodes existantes dans un cadre rigoureux, sans recourir à des ressources d’entraînement externes. LaMI-DETR atteint un score AP de boîte rare de 43,4 sur OV-LVIS, dépassant ainsi le meilleur résultat précédent de 7,8 points AP de boîte rare.