il y a 2 mois

Pré-entraînement Vision-Langue avec Apprentissage Contrastif Triple

Jinyu Yang; Jiali Duan; Son Tran; Yi Xu; Sampath Chanda; Liqun Chen; Belinda Zeng; Trishul Chilimbi; Junzhou Huang

Résumé

L'apprentissage de représentations vision-langue bénéficie largement de l'alignement image-texte grâce aux pertes contrastives (par exemple, la perte InfoNCE). Le succès de cette stratégie d'alignement est attribué à sa capacité à maximiser l'information mutuelle (MI) entre une image et son texte correspondant. Cependant, effectuer simplement un alignement intermodale (CMA) ignore le potentiel des données au sein de chaque modalité, ce qui peut entraîner une dégradation des représentations. Par exemple, bien que les modèles basés sur le CMA soient capables de rapprocher les paires image-texte dans l'espace d'embedding, ils ne garantissent pas que des entrées similaires de la même modalité restent proches. Ce problème peut s'aggraver lorsque les données d'pré-entraînement sont bruyantes. Dans cet article, nous proposons l'apprentissage contrastif tripartite (TCL) pour la pré-entraîne vision-langue en exploitant à la fois la supervision intermodale et intramodale. Outre le CMA, le TCL introduit un objectif contrastif intramodal pour apporter des avantages complémentaires dans l'apprentissage de représentations. Pour tirer parti des informations localisées et structurales provenant des entrées image et texte, le TCL maximise également la moyenne de l'information mutuelle entre les régions locales de l'image/du texte et leur résumé global. À notre connaissance, c'est le premier travail qui prend en compte les informations structurales locales pour l'apprentissage de représentations multimodales. Les évaluations expérimentales montrent que notre approche est compétitive et atteint un nouveau niveau d'état de l'art sur diverses tâches vision-langue courantes telles que la recherche d'image-texte et la réponse aux questions visuelles.