HyperAIHyperAI

Command Palette

Search for a command to run...

VLM : Pré-entraînement d'un modèle vidéo-langage agnostique aux tâches pour la compréhension vidéo

Hu Xu Gargi Ghosh Po-Yao Huang Prahal Arora Masoumeh Aminzadeh Christoph Feichtenhofer Florian Metze Luke Zettlemoyer

Résumé

Nous présentons une approche simplifiée de pré-entraînement multi-modale, indépendante des tâches, capable de traiter soit une entrée vidéo, soit une entrée textuelle, ou les deux, pour une variété de tâches finales. Les méthodes de pré-entraînement existantes sont généralement spécifiques à une tâche : soit elles reposent sur un encodeur cross-modale unique qui nécessite les deux modalités, ce qui limite leur utilisation pour des tâches de recherche, soit elles impliquent un apprentissage multitâche plus complexe avec deux encodeurs unimodaux, ce qui restreint la fusion précoce entre modalités. À la place, nous introduisons de nouveaux schémas de masquage pour le pré-entraînement, qui permettent une meilleure intégration entre modalités (par exemple en obligeant les masques appliqués au texte à prédire les embeddings vidéo les plus proches), tout en maintenant une séparabilité (par exemple, des prédictions unimodales sont parfois requises sans utiliser l’ensemble des entrées). Les résultats expérimentaux montrent une performance solide sur un éventail plus large de tâches que toute méthode précédente, surpassant souvent les approches de pré-entraînement spécifiques à une tâche. Le code est disponible à l’adresse suivante : https://github.com/pytorch/fairseq/tree/main/examples/MMPT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
VLM : Pré-entraînement d'un modèle vidéo-langage agnostique aux tâches pour la compréhension vidéo | Articles | HyperAI