X-Pool : Attention cross-modale langage-vidéo pour la recherche texte-vidéo

Dans la recherche textuelle-vidéo, l'objectif consiste à apprendre une fonction de similarité entre un texte et une vidéo, de manière à classer les paires texte-vidéo pertinentes plus haut que celles qui ne le sont pas. Toutefois, les vidéos expriment intrinsèquement un éventail d'informations bien plus vaste que les textes. À l'inverse, les textes capturent souvent des sous-régions spécifiques d'une vidéo entière et sont sémantiquement les plus proches de certaines trames vidéo. Par conséquent, pour un texte donné, un modèle de recherche devrait se concentrer sur les sous-régions vidéo les plus semblables sémantiquement au texte afin d’établir une comparaison plus pertinente. Or, la plupart des méthodes existantes agrégent l’ensemble de la vidéo sans considérer directement le texte. Les schémas d’agrégation courants, comme le mean-pooling ou l’attention auto-associative sur les trames, risquent d’encoder des informations visuelles trompeuses non décrites dans le texte donné. Pour remédier à ce problème, nous proposons un modèle d’attention cross-modale appelé X-Pool, qui reasonne de manière conjointe entre un texte et les trames d’une vidéo. Notre mécanisme central repose sur une attention produit scalaire permettant au texte d’attirer l’attention sur ses trames les plus sémantiquement similaires. Nous générons ensuite une représentation vidéo agrégée conditionnée aux poids d’attention du texte sur les trames. Nous évaluons notre méthode sur trois jeux de données de référence : MSR-VTT, MSVD et LSMDC, obtenant des résultats de pointe, avec une amélioration relative maximale de 12 % en Recall@1. Nos résultats mettent ainsi en évidence l’importance du raisonnement conjoint texte-vidéo pour extraire efficacement les indices visuels pertinents selon le contexte textuel. Le code complet et une démonstration sont disponibles à l’adresse suivante : https://layer6ai-labs.github.io/xpool/