Transformateur multimodal pour la recherche vidéo

La tâche de récupération de contenus vidéo pertinents par rapport à des requêtes en langage naturel joue un rôle fondamental dans la gestion efficace de jeux de données à l’échelle d’internet. La plupart des méthodes existantes pour le problème de recherche vidéo à partir de légendes (caption-to-video retrieval) ne tirent pas pleinement parti des indices intermodaux présents dans les vidéos. En outre, elles agrègent les caractéristiques visuelles par trame en ne tenant compte que de manière limitée ou nullement de l’information temporelle. Dans cet article, nous proposons un transformer multimodal capable d’encoder conjointement les différentes modalités présentes dans la vidéo, permettant ainsi à chaque modalité d’attendre les autres. L’architecture de transformer est également exploitée pour encoder et modéliser l’information temporelle. Du côté du langage naturel, nous étudions les meilleures pratiques pour optimiser conjointement l’embedding linguistique avec le transformer multimodal. Ce cadre novateur nous permet d’obtenir des résultats de pointe pour la recherche vidéo sur trois jeux de données. Pour plus de détails, consulter : http://thoth.inrialpes.fr/research/MMT.