LMPT : Tuning de Prompt avec Perte d'Embedding Spécifique par Classe pour la Reconnaissance Visuelle Multi-Étiquettes à Longue Queue

La tâche de reconnaissance visuelle multi-étiquettes à queue longue (LTML) est particulièrement difficile en raison de la co-occurrence des étiquettes et de la distribution déséquilibrée des données. Dans ce travail, nous proposons un cadre unifié pour la LTML, nommé ajustement de prompt avec perte d'embedding spécifique à la classe (LMPT), qui capture les interactions sémantiques entre les catégories en combinant des données multimodales texte-image, tout en améliorant simultanément les performances sur les classes dominantes (head) et les classes rares (tail). Plus précisément, LMPT introduit une fonction de perte d'embedding avec marge douce sensible à la classe et rééchantillonnage, permettant d'apprendre des contextes spécifiques à chaque classe grâce aux descriptions textuelles (captions), ce qui favorise la mise en évidence de relations sémantiques entre les classes, notamment entre les classes dominantes et les classes rares. En outre, en tenant compte du déséquilibre entre les classes, nous adoptons une fonction de perte équilibrée par rapport à la distribution comme fonction de perte de classification, afin d’améliorer davantage les performances sur les classes rares sans compromettre celles des classes dominantes. Des expériences étendues ont été menées sur les jeux de données VOC-LT et COCO-LT, démontrant que notre méthode surpasse significativement les méthodes d’état de l’art précédentes ainsi que CLIP zéro-shot dans le cadre de la LTML. Le code source est entièrement disponible à l’adresse suivante : https://github.com/richard-peng-xia/LMPT.