Textes comme images dans l’ajustement des invites pour la reconnaissance d'images multi-étiquettes

Le prompt tuning a été utilisé comme une méthode efficace pour adapter les grands modèles pré-entraînés en vision-langue (par exemple, CLIP) à diverses tâches en aval dans des contextes où les données ou les étiquettes sont limitées. Cependant, les données visuelles (par exemple, des images) sont par défaut nécessaires pour l'apprentissage des prompts dans les méthodes existantes. Dans ce travail, nous soutenons que l'efficacité de l'apprentissage contrastif image-texte pour aligner les deux modalités (dans le cadre de la formation de CLIP) rend également possible de traiter les textes comme des images pour le prompt tuning et nous introduisons le TaI prompting. Contrairement aux données visuelles, les descriptions textuelles sont faciles à collecter et leurs étiquettes de classe peuvent être directement dérivées. Plus particulièrement, nous appliquons le TaI prompting à la reconnaissance d'images multi-étiquetées, où des phrases issues du domaine naturel servent d'alternatives aux images pour le prompt tuning. De plus, avec TaI, un prompt tuning à double grain (TaI-DPT) est présenté pour extraire à la fois des plongements grossiers et fins afin d'améliorer la performance de reconnaissance multi-étiquetée. Les résultats expérimentaux montrent que notre proposition de TaI-DPT surpasse largement CLIP en zero-shot sur plusieurs benchmarks, tels que MS-COCO, VOC2007 et NUS-WIDE, tout en pouvant être combinée avec les méthodes existantes de prompting à partir d'images pour améliorer encore davantage la performance de reconnaissance. Le code est disponible sur https://github.com/guozix/TaI-DPT.