Transformateur de corrélation consciente des rôles sémantiques pour la recherche texte-vidéo

Face à l'émergence des réseaux sociaux, des quantités massives de vidéos sont téléchargées chaque jour, ce qui rend essentiel le recouvrement du contenu visuel le plus pertinent en réponse à une requête linguistique. La plupart des approches visent à apprendre un espace d'encodage conjoint pour les contenus textuels bruts et visuels, sans exploiter pleinement leurs structures intra-modales ni leurs corrélations inter-modales. Ce papier propose un nouveau modèle transformer qui décompose explicitement le texte et la vidéo en trois rôles sémantiques — objets, contextes spatiaux et contextes temporels — en utilisant un mécanisme d'attention afin d'apprendre les corrélations intra- et inter-roles entre ces trois composantes, permettant ainsi de découvrir des caractéristiques discriminantes pour la correspondance à différents niveaux. Les résultats préliminaires obtenus sur le jeu de données YouCook2, largement utilisé, montrent que notre méthode surpasse significativement une méthode de pointe actuelle, avec une marge importante sur tous les indicateurs. Elle dépasse également deux autres méthodes de pointe sur deux des métriques considérées.