HyperAIHyperAI
il y a 17 jours

VISTA : Embedding Textual Visualisé pour une Recherche Multi-Modale Universelle

Junjie Zhou, Zheng Liu, Shitao Xiao, Bo Zhao, Yongping Xiong
VISTA : Embedding Textual Visualisé pour une Recherche Multi-Modale Universelle
Résumé

Le recherche multi-modale gagne en popularité dans les applications pratiques. Toutefois, les modèles de recherche actuels sont principalement orientés vers le texte, ce qui les prive de la capacité à traiter les informations visuelles. Malgré l’existence de modèles vision-langage tels que CLIP, les méthodes actuelles restent fortement limitées dans la représentation des données textuelles uniquement ou images uniquement. Dans ce travail, nous proposons un nouveau modèle d’encodage, VISTA, destiné à la recherche multi-modale universelle. Notre contribution technique se décline en trois aspects majeurs. Premièrement, nous introduisons une architecture flexible qui étend un puissant encodeur de texte en lui ajoutant une capacité de compréhension visuelle grâce à l’incorporation d’embeddings de tokens visuels. Deuxièmement, nous développons deux stratégies de génération de données, permettant de produire des paires image-texte composées de haute qualité, favorisant ainsi l’entraînement du modèle d’encodage. Troisièmement, nous proposons un algorithme d’entraînement en plusieurs étapes : la première phase aligne les embeddings visuels avec l’encodeur de texte à l’aide de données massives étiquetées faiblement, puis la seconde phase développe la capacité de représentation multi-modale à partir des données image-texte générées. Dans nos expériences, VISTA obtient des performances supérieures sur diverses tâches de recherche multi-modale, tant dans des scénarios zero-shot que supervisés. Notre modèle, les données et le code source sont disponibles à l’adresse suivante : https://github.com/FlagOpen/FlagEmbedding.

VISTA : Embedding Textual Visualisé pour une Recherche Multi-Modale Universelle | Articles de recherche récents | HyperAI