DualCoOp : Adaptation Rapide à la Reconnaissance Multi-Étiquettes avec Annotations Limitées

La résolution de la reconnaissance multi-étiquette (MLR) pour les images dans un régime à faible nombre d'étiquettes est une tâche complexe avec de nombreuses applications pratiques. Des travaux récents ont appris un alignement entre les espaces textuel et visuel afin de compenser le manque d'étiquettes d'images, mais perdent en précision en raison de la quantité limitée d'annotations MLR disponibles. Dans cette étude, nous utilisons l'alignement robuste des caractéristiques textuelles et visuelles préentrainées avec des millions de paires image-texte auxiliaires et proposons Dual Context Optimization (DualCoOp) comme cadre unifié pour la reconnaissance multi-étiquette partielle et zéro-shot. DualCoOp encode les contextes positifs et négatifs avec les noms de classe faisant partie de l'entrée linguistique (c'est-à-dire des prompts). Étant donné que DualCoOp introduit seulement une surcharge très légère et apprenable au-dessus du cadre vision-langage préentrainé, il peut s'adapter rapidement aux tâches de reconnaissance multi-étiquette qui disposent d'annotations limitées et même à des classes inconnues. Les expériences menées sur des benchmarks standard de reconnaissance multi-étiquette dans deux configurations difficiles à faible nombre d'étiquettes démontrent les avantages de notre approche par rapport aux méthodes les plus avancées actuellement disponibles.