il y a 7 jours

Une étude empirique des transformateurs vidéo-langage bout-en-bout avec modélisation visuelle masquée

Tsu-Jui Fu, Linjie Li, Zhe Gan, Kevin Lin, William Yang Wang, Lijuan Wang, Zicheng Liu

Résumé

Le modèle visuel masqué (MVM, Masked Visual Modeling) s'est récemment avéré efficace pour l'apprentissage préalable visuel. Bien que des objectifs de reconstruction similaires sur des entrées vidéo (par exemple, le modèle de trames masquées) aient été explorés dans le cadre de l'apprentissage préalable vidéo-langage (VidL), les études antérieures n'ont pas réussi à identifier une stratégie MVM véritablement efficace pouvant fortement améliorer les performances sur les tâches ultérieures. Dans ce travail, nous examinons de manière systématique le potentiel du MVM dans le contexte de l'apprentissage VidL. Plus précisément, notre étude repose sur un modèle entièrement end-to-end, le VIdeO-LanguagE Transformer (VIOLET), dans lequel la supervision issue de l'entraînement MVM peut être rétropropagée jusqu'à l'espace des pixels vidéo. Huit cibles de reconstruction différentes sont explorées, allant des valeurs de pixels de bas niveau et des gradients orientés aux cartes de profondeur, au flux optique, aux tokens visuels discrets et aux caractéristiques visuelles latentes de haut niveau. Des expérimentations approfondies sont menées, permettant d’identifier les facteurs clés conduisant à un entraînement MVM efficace, aboutissant à une version améliorée du modèle, VIOLETv2. Expérimentalement, nous démontrons que VIOLETv2, pré-entraîné avec l’objectif MVM, atteint des améliorations significatives sur 13 benchmarks VidL, couvrant des tâches telles que la réponse à des questions vidéo, la génération de légendes vidéo et la recherche vidéo à partir de texte.