HyperAIHyperAI
il y a 2 mois

TagAlign : Amélioration de l'alignement vision-langue par classification multi-étiquettes

Qinying Liu; Wei Wu; Kecheng Zheng; Zhan Tong; Jiawei Liu; Yu Liu; Wei Chen; Zilei Wang; Yujun Shen
TagAlign : Amélioration de l'alignement vision-langue par classification multi-étiquettes
Résumé

L'essentiel de l'apprentissage des modèles vision-langue réside dans l'extraction d'informations sémantiquement alignées à partir de données visuelles et linguistiques. Les tentatives existantes sont généralement confrontées au problème d'un alignement grossier, par exemple, le codificateur visuel peine à localiser un objet spécifié par ses attributs. Dans ce travail, nous proposons une approche extrêmement simple pour améliorer l'alignement des caractéristiques d'image et de texte sans nécessiter d'autres formats de données que des paires image-texte. Plus précisément, étant donné une image et son texte associé, nous parvenons à analyser les objets (par exemple, chat) et les attributs (par exemple, noir) décrits, qui ont une forte probabilité d'exister dans l'image. Il est important de noter que la chaîne de traitement d'analyse est entièrement automatique et bénéficie donc d'une bonne scalabilité. En utilisant ces sémantiques analysées comme signaux de supervision, nous pouvons compléter la perte contrastive image-texte couramment utilisée avec la perte de classification multi-étiquettes. De nombreux résultats expérimentaux sur une large gamme de jeux de données de segmentation sémantique confirment en moyenne une amélioration de 5,2 % de notre cadre par rapport aux alternatives existantes. De plus, les résultats de visualisation indiquent que la supervision par les attributs permet aux modèles vision-langue de localiser précisément les objets spécifiés par leurs attributs. La page du projet peut être consultée à l'adresse suivante : https://qinying-liu.github.io/Tag-Align.

TagAlign : Amélioration de l'alignement vision-langue par classification multi-étiquettes | Articles de recherche récents | HyperAI