HERO : Encodage hiérarchique pour l'apprentissage préalable omni-représentatif vidéo+langage

Nous présentons HERO, un cadre novateur pour l’apprentissage omni-représentatif à grande échelle de vidéos et de langage. HERO encode les entrées multimodales selon une structure hiérarchique : le contexte local d’un cadre vidéo est capturé par un Transformer cross-modale via une fusion multimodale, tandis que le contexte vidéo global est modélisé par un Transformer temporel. En plus des objectifs classiques de modélisation du langage masqué (MLM) et de modélisation des cadres masqués (MFM), nous proposons deux nouvelles tâches d’entraînement préalable : (i) la correspondance vidéo-sous-titres (VSM), où le modèle prédit à la fois l’alignement temporel global et local ; et (ii) la modélisation de l’ordre des cadres (FOM), où le modèle prédit l’ordre correct d’une séquence de cadres vidéo mélangés. HERO est entraîné de manière conjointe sur les jeux de données HowTo100M et des jeux de données télévisuels à grande échelle afin d’acquérir une compréhension approfondie des dynamiques sociales complexes impliquant plusieurs personnages. Des expériences complètes démontrent que HERO atteint de nouveaux états de l’art sur plusieurs benchmarks dans des tâches variées, notamment la récupération vidéo basée sur le texte, la récupération de moment vidéo, la question-réponse vidéo (QA), l’inférence vidéo-langage et la génération de légendes vidéo, sur des domaines divers. Nous introduisons également deux nouveaux benchmarks exigeants, How2QA et How2R, dédiés à la question-réponse vidéo et à la récupération vidéo, constitués à partir de contenus vidéo variés et multimodaux.