il y a 2 mois

Enseignant Démasqué : Vers des Modèles Fondamentaux Vidéo Plus Efficaces en Formation

Kunchang Li; Yali Wang; Yizhuo Li; Yi Wang; Yinan He; Limin Wang; Yu Qiao

Résumé

Les modèles de fondation vidéo (VFM) n'ont fait l'objet que d'une exploration limitée en raison des coûts computationnels élevés et de la rareté des données. Les VFM précédents s'appuyaient sur les modèles de fondation image (IFM), qui rencontrent des difficultés pour se transférer au domaine vidéo. Bien que VideoMAE ait réussi à entraîner un ViT robuste à partir de données limitées, sa reconstruction de bas niveau pose des problèmes de convergence et entre en conflit avec l'alignement intermodale de haut niveau. Cet article propose une méthode d'entraînement efficace pour les VFM sensibles au temps, intégrant les avantages des méthodes existantes. Pour augmenter l'efficacité des données, nous masquons la majorité des jetons vidéo à faible sémantique, mais alignons sélectivement les jetons non masqués avec l'IFM, qui agit en tant qu'enseignant non masqué (UMT). En fournissant une orientation sémantique, notre méthode permet une convergence plus rapide et une amitié multimodale. Grâce à un cadre d'entraînement progressif, notre modèle peut traiter diverses tâches, y compris celles liées aux scènes, au temps et à la compréhension complexe vidéo-langue. En utilisant uniquement des sources publiques pour l'entraînement préalable pendant 6 jours sur 32 GPU A100, notre ViT-L/16 construit à partir de zéro atteint des performances de pointe sur diverses tâches vidéo. Le code et les modèles seront mis à disposition sur https://github.com/OpenGVLab/unmasked_teacher.