VLM : Pré-entraînement d'un modèle vidéo-langage agnostique aux tâches pour la compréhension vidéo

Nous présentons une approche simplifiée de pré-entraînement multi-modale, indépendante des tâches, capable de traiter soit une entrée vidéo, soit une entrée textuelle, ou les deux, pour une variété de tâches finales. Les méthodes de pré-entraînement existantes sont généralement spécifiques à une tâche : soit elles reposent sur un encodeur cross-modale unique qui nécessite les deux modalités, ce qui limite leur utilisation pour des tâches de recherche, soit elles impliquent un apprentissage multitâche plus complexe avec deux encodeurs unimodaux, ce qui restreint la fusion précoce entre modalités. À la place, nous introduisons de nouveaux schémas de masquage pour le pré-entraînement, qui permettent une meilleure intégration entre modalités (par exemple en obligeant les masques appliqués au texte à prédire les embeddings vidéo les plus proches), tout en maintenant une séparabilité (par exemple, des prédictions unimodales sont parfois requises sans utiliser l’ensemble des entrées). Les résultats expérimentaux montrent une performance solide sur un éventail plus large de tâches que toute méthode précédente, surpassant souvent les approches de pré-entraînement spécifiques à une tâche. Le code est disponible à l’adresse suivante : https://github.com/pytorch/fairseq/tree/main/examples/MMPT.