HyperAIHyperAI

Command Palette

Search for a command to run...

Une étude empirique des transformateurs vidéo-langage bout-en-bout avec modélisation visuelle masquée

Tsu-Jui Fu Linjie Li Zhe Gan Kevin Lin William Yang Wang Lijuan Wang Zicheng Liu

Résumé

Le modèle visuel masqué (MVM, Masked Visual Modeling) s'est récemment avéré efficace pour l'apprentissage préalable visuel. Bien que des objectifs de reconstruction similaires sur des entrées vidéo (par exemple, le modèle de trames masquées) aient été explorés dans le cadre de l'apprentissage préalable vidéo-langage (VidL), les études antérieures n'ont pas réussi à identifier une stratégie MVM véritablement efficace pouvant fortement améliorer les performances sur les tâches ultérieures. Dans ce travail, nous examinons de manière systématique le potentiel du MVM dans le contexte de l'apprentissage VidL. Plus précisément, notre étude repose sur un modèle entièrement end-to-end, le VIdeO-LanguagE Transformer (VIOLET), dans lequel la supervision issue de l'entraînement MVM peut être rétropropagée jusqu'à l'espace des pixels vidéo. Huit cibles de reconstruction différentes sont explorées, allant des valeurs de pixels de bas niveau et des gradients orientés aux cartes de profondeur, au flux optique, aux tokens visuels discrets et aux caractéristiques visuelles latentes de haut niveau. Des expérimentations approfondies sont menées, permettant d’identifier les facteurs clés conduisant à un entraînement MVM efficace, aboutissant à une version améliorée du modèle, VIOLETv2. Expérimentalement, nous démontrons que VIOLETv2, pré-entraîné avec l’objectif MVM, atteint des améliorations significatives sur 13 benchmarks VidL, couvrant des tâches telles que la réponse à des questions vidéo, la génération de légendes vidéo et la recherche vidéo à partir de texte.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp