Apprentissage d'un plongement texte-vidéo à partir de données incomplètes et hétérogènes

La compréhension conjointe de la vidéo et du langage est un domaine de recherche actif avec de nombreuses applications. Les travaux précédents dans ce domaine s'appuient généralement sur l'apprentissage d'embeddings texte-vidéo. Cependant, une difficulté majeure de cette approche réside dans le manque de grands ensembles de données annotés de vidéos et de légendes pour l'entraînement. Pour remédier à ce problème, nous visons à apprendre des embeddings texte-vidéo à partir de sources de données hétérogènes. À cet effet, nous proposons un modèle Mixture-of-Embedding-Experts (MEE) capable de gérer les modalités d'entrée manquantes lors de l'entraînement. En conséquence, notre cadre peut apprendre des embeddings texte-vidéo améliorés simultanément à partir d'ensembles de données d'images et de vidéos. Nous montrons également la généralisation du modèle MEE à d'autres modalités d'entrée telles que les descripteurs faciaux. Nous évaluons notre méthode sur la tâche de recherche vidéo et présentons des résultats pour les ensembles de données MPII Movie Description et MSR-VTT. Le modèle MEE proposé montre des améliorations significatives et surpass les méthodes précédemment rapportées dans les tâches de recherche texte-vidéo et vidéo-texte. Le code est disponible à : https://github.com/antoine77340/Mixture-of-Embedding-Experts