HyperAIHyperAI
il y a 2 mois

Apprentissage des représentations vidéo à partir de grands modèles de langage

Zhao, Yue ; Misra, Ishan ; Krähenbühl, Philipp ; Girdhar, Rohit
Apprentissage des représentations vidéo à partir de grands modèles de langage
Résumé

Nous présentons LaViLa, une nouvelle approche pour l'apprentissage des représentations vidéo-langue en utilisant les grands modèles de langage (LLMs). Nous réorientons les LLMs pré-entraînés pour qu'ils soient conditionnés par l'entrée visuelle, puis nous les affinons pour créer des narrateurs vidéo automatiques. Nos narrations générées automatiquement offrent plusieurs avantages, notamment une couverture dense des vidéos longues, une meilleure synchronisation temporelle entre les informations visuelles et le texte, ainsi qu'une diversité beaucoup plus grande du texte. L'embedding vidéo-texte appris de manière contrastive avec ces narrations supplémentaires générées automatiquement surpasse l'état de l'art précédent sur plusieurs tâches de vidéos à la première personne et à la troisième personne, tant dans des configurations zero-shot que finetuned. De manière particulièrement notable, LaViLa obtient un gain absolu de 10,1 % sur la classification EGTEA et de 5,9 % sur le benchmark de recherche multi-instance Epic-Kitchens-100. De plus, LaViLa entraîné avec seulement la moitié des narrations du dataset Ego4D surpasse les modèles de référence entraînés sur l'ensemble complet des données, et montre un comportement d'échelle positif en augmentant les données d'entraînement préliminaire et la taille du modèle.

Apprentissage des représentations vidéo à partir de grands modèles de langage | Articles de recherche récents | HyperAI