HyperAIHyperAI

Command Palette

Search for a command to run...

Enseignant Démasqué : Vers des Modèles Fondamentaux Vidéo Plus Efficaces en Formation

Kunchang Li Yali Wang Yizhuo Li Yi Wang Yinan He Limin Wang Yu Qiao

Résumé

Les modèles de fondation vidéo (VFM) n'ont fait l'objet que d'une exploration limitée en raison des coûts computationnels élevés et de la rareté des données. Les VFM précédents s'appuyaient sur les modèles de fondation image (IFM), qui rencontrent des difficultés pour se transférer au domaine vidéo. Bien que VideoMAE ait réussi à entraîner un ViT robuste à partir de données limitées, sa reconstruction de bas niveau pose des problèmes de convergence et entre en conflit avec l'alignement intermodale de haut niveau. Cet article propose une méthode d'entraînement efficace pour les VFM sensibles au temps, intégrant les avantages des méthodes existantes. Pour augmenter l'efficacité des données, nous masquons la majorité des jetons vidéo à faible sémantique, mais alignons sélectivement les jetons non masqués avec l'IFM, qui agit en tant qu'enseignant non masqué (UMT). En fournissant une orientation sémantique, notre méthode permet une convergence plus rapide et une amitié multimodale. Grâce à un cadre d'entraînement progressif, notre modèle peut traiter diverses tâches, y compris celles liées aux scènes, au temps et à la compréhension complexe vidéo-langue. En utilisant uniquement des sources publiques pour l'entraînement préalable pendant 6 jours sur 32 GPU A100, notre ViT-L/16 construit à partir de zéro atteint des performances de pointe sur diverses tâches vidéo. Le code et les modèles seront mis à disposition sur https://github.com/OpenGVLab/unmasked_teacher.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Enseignant Démasqué : Vers des Modèles Fondamentaux Vidéo Plus Efficaces en Formation | Articles | HyperAI