HyperAIHyperAI

Command Palette

Search for a command to run...

TagAlign : Amélioration de l'alignement vision-langue par classification multi-étiquettes

Qinying Liu Wei Wu Kecheng Zheng Zhan Tong Jiawei Liu Yu Liu Wei Chen Zilei Wang Yujun Shen

Résumé

L'essentiel de l'apprentissage des modèles vision-langue réside dans l'extraction d'informations sémantiquement alignées à partir de données visuelles et linguistiques. Les tentatives existantes sont généralement confrontées au problème d'un alignement grossier, par exemple, le codificateur visuel peine à localiser un objet spécifié par ses attributs. Dans ce travail, nous proposons une approche extrêmement simple pour améliorer l'alignement des caractéristiques d'image et de texte sans nécessiter d'autres formats de données que des paires image-texte. Plus précisément, étant donné une image et son texte associé, nous parvenons à analyser les objets (par exemple, chat) et les attributs (par exemple, noir) décrits, qui ont une forte probabilité d'exister dans l'image. Il est important de noter que la chaîne de traitement d'analyse est entièrement automatique et bénéficie donc d'une bonne scalabilité. En utilisant ces sémantiques analysées comme signaux de supervision, nous pouvons compléter la perte contrastive image-texte couramment utilisée avec la perte de classification multi-étiquettes. De nombreux résultats expérimentaux sur une large gamme de jeux de données de segmentation sémantique confirment en moyenne une amélioration de 5,2 % de notre cadre par rapport aux alternatives existantes. De plus, les résultats de visualisation indiquent que la supervision par les attributs permet aux modèles vision-langue de localiser précisément les objets spécifiés par leurs attributs. La page du projet peut être consultée à l'adresse suivante : https://qinying-liu.github.io/Tag-Align.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp