Appariement vidéo-texte avec des embeddings conditionnés

Nous présentons une méthode permettant d’associer une phrase textuelle extraite d’un corpus donné à une séquence vidéo donnée, et réciproquement. Traditionnellement, le regroupement entre vidéos et textes repose sur l’apprentissage d’un espace d’encodage partagé, dans lequel l’encodage d’une modalité est indépendant de l’autre. Dans ce travail, nous encodons les données du jeu de données de manière à intégrer les informations pertinentes contenues dans la requête. La puissance de la méthode provient notamment du regroupement des interactions entre les mots et les images (frames). Étant donné que l’encodage d’une séquence vidéo dépend de la phrase à laquelle elle est comparée, la représentation doit être recalculée pour chaque correspondance potentielle. À cet effet, nous proposons un réseau neuronal léger, efficace. Son entraînement repose sur une perte hiérarchique de triplet, extensible à des tâches de correspondance paragraphe/vidéo. La méthode est simple, offrant une certaine explicabilité, et atteint des résultats de pointe pour les tâches de correspondance phrase-sequence vidéo et vidéo-texte, avec une marge significative sur cinq jeux de données différents : ActivityNet, DiDeMo, YouCook2, MSR-VTT et LSMDC. Nous montrons également que notre représentation conditionnée peut être transférée à la traduction automatique guidée par vidéo, où nous améliorons les résultats actuels sur le jeu de données VATEX. Le code source est disponible à l’adresse suivante : https://github.com/AmeenAli/VideoMatch.