HyperAIHyperAI

Command Palette

Search for a command to run...

Pré-entraînement Vision-Langue avec Apprentissage Contrastif Triple

Jinyu Yang extsuperscript1 Jiali Duan extsuperscript2 Son Tran extsuperscript2 Yi Xu extsuperscript2 Sampath Chanda extsuperscript2 Liqun Chen extsuperscript2 Belinda Zeng extsuperscript2 Trishul Chilimbi extsuperscript2 Junzhou Huang extsuperscript1

Résumé

L'apprentissage de représentations vision-langue bénéficie largement de l'alignement image-texte grâce aux pertes contrastives (par exemple, la perte InfoNCE). Le succès de cette stratégie d'alignement est attribué à sa capacité à maximiser l'information mutuelle (MI) entre une image et son texte correspondant. Cependant, effectuer simplement un alignement intermodale (CMA) ignore le potentiel des données au sein de chaque modalité, ce qui peut entraîner une dégradation des représentations. Par exemple, bien que les modèles basés sur le CMA soient capables de rapprocher les paires image-texte dans l'espace d'embedding, ils ne garantissent pas que des entrées similaires de la même modalité restent proches. Ce problème peut s'aggraver lorsque les données d'pré-entraînement sont bruyantes. Dans cet article, nous proposons l'apprentissage contrastif tripartite (TCL) pour la pré-entraîne vision-langue en exploitant à la fois la supervision intermodale et intramodale. Outre le CMA, le TCL introduit un objectif contrastif intramodal pour apporter des avantages complémentaires dans l'apprentissage de représentations. Pour tirer parti des informations localisées et structurales provenant des entrées image et texte, le TCL maximise également la moyenne de l'information mutuelle entre les régions locales de l'image/du texte et leur résumé global. À notre connaissance, c'est le premier travail qui prend en compte les informations structurales locales pour l'apprentissage de représentations multimodales. Les évaluations expérimentales montrent que notre approche est compétitive et atteint un nouveau niveau d'état de l'art sur diverses tâches vision-langue courantes telles que la recherche d'image-texte et la réponse aux questions visuelles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp