il y a 15 jours

ViSTA : Agrégation de la vision et du texte scénique pour la recherche multimodale

Mengjun Cheng, Yipeng Sun, Longchao Wang, Xiongwei Zhu, Kun Yao, Jie Chen, Guoli Song, Junyu Han, Jingtuo Liu, Errui Ding, Jingdong Wang

Voir les détails de l'article

ViSTA : Agrégation de la vision et du texte scénique pour la recherche multimodale

Résumé

L’apparence visuelle est considérée comme le signal le plus important pour comprendre les images dans le cadre de la recherche multimodale, tandis que, dans certains cas, les textes scènes présents dans les images peuvent fournir des informations précieuses pour interpréter les sémantiques visuelles. La plupart des approches existantes de recherche multimodale ignorent l’utilisation de ces informations textuelles scènes, et leur ajout direct peut entraîner une dégradation des performances dans les scénarios où aucun texte scène n’est présent. Pour résoudre ce problème, nous proposons une architecture complète basée sur des transformateurs, unifiant ces différents scénarios de recherche multimodale dans un cadre unique appelé ViSTA (Vision and Scene Text Aggregation). Spécifiquement, ViSTA utilise des blocs de transformateurs pour encoder directement les patchs d’image et fusionner les embeddings textuels scènes afin d’apprendre une représentation visuelle agrégée adaptée à la recherche multimodale. Pour traiter le problème de disparition modale du texte scène, nous introduisons une nouvelle approche de fusion basée sur un token de fusion, permettant d’échanger uniquement les informations textuelles essentielles via ce token, tout en se concentrant sur les caractéristiques les plus pertinentes de chaque modalité. Pour renforcer davantage la modalité visuelle, nous proposons deux pertes de contraste dual afin d’encoder à la fois les paires image-texte et les paires fusion-texte dans un espace commun multimodal. Contrairement aux méthodes existantes, ViSTA permet d’agréger efficacement les sémantiques textuelles scènes avec l’apparence visuelle, améliorant ainsi les performances dans les deux contextes : avec ou sans texte scène. Les résultats expérimentaux montrent que ViSTA dépasse les autres méthodes d’au moins 8,4 % en Recall@1 pour la tâche de recherche avec texte scène. En comparaison avec les méthodes les plus avancées dans les scénarios sans texte scène, ViSTA atteint une meilleure précision sur les jeux de données Flicker30K et MSCOCO, tout en étant au moins trois fois plus rapide pendant l’étape d’inférence, ce qui valide l’efficacité du cadre proposé.