HyperAIHyperAI
il y a 9 jours

MDMMT-2 : Transformateur Multidomaine Multimodal pour la Recherche Vidéo, Un Pas de Plus Vers la Généralisation

Alexander Kunitsyn, Maksim Kalashnikov, Maksim Dzabraev, Andrei Ivaniuta
MDMMT-2 : Transformateur Multidomaine Multimodal pour la Recherche Vidéo, Un Pas de Plus Vers la Généralisation
Résumé

Dans ce travail, nous présentons une nouvelle solution de pointe pour la tâche de recherche textuelle vers vidéo sur les jeux de données MSR-VTT, LSMDC, MSVD, YouCook2 et TGIF, obtenue à l’aide d’un seul modèle. Trois sources de données différentes sont combinées : des vidéos faiblement supervisées, des paires texte-image étiquetées par la foule, et des paires texte-vidéo. Une analyse minutieuse des réseaux pré-entraînés disponibles permet de sélectionner les meilleures connaissances a priori. Nous proposons une procédure d’entraînement en trois étapes, offrant une haute efficacité de transfert des connaissances et permettant d’utiliser des jeux de données bruités lors de l’entraînement sans dégradation de la connaissance a priori. En outre, une encodage positionnel double est employé pour améliorer la fusion entre les différentes modalités, et une méthode simple pour le traitement des entrées non carrées est suggérée.