HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage des représentations vidéo à partir de grands modèles de langage

Yue Zhao extsuperscript1,2*, Ishan Misra extsuperscript1 Philipp Krähenbühl extsuperscript2 Rohit Girdhar extsuperscript1

Résumé

Nous présentons LaViLa, une nouvelle approche pour l'apprentissage des représentations vidéo-langue en utilisant les grands modèles de langage (LLMs). Nous réorientons les LLMs pré-entraînés pour qu'ils soient conditionnés par l'entrée visuelle, puis nous les affinons pour créer des narrateurs vidéo automatiques. Nos narrations générées automatiquement offrent plusieurs avantages, notamment une couverture dense des vidéos longues, une meilleure synchronisation temporelle entre les informations visuelles et le texte, ainsi qu'une diversité beaucoup plus grande du texte. L'embedding vidéo-texte appris de manière contrastive avec ces narrations supplémentaires générées automatiquement surpasse l'état de l'art précédent sur plusieurs tâches de vidéos à la première personne et à la troisième personne, tant dans des configurations zero-shot que finetuned. De manière particulièrement notable, LaViLa obtient un gain absolu de 10,1 % sur la classification EGTEA et de 5,9 % sur le benchmark de recherche multi-instance Epic-Kitchens-100. De plus, LaViLa entraîné avec seulement la moitié des narrations du dataset Ego4D surpasse les modèles de référence entraînés sur l'ensemble complet des données, et montre un comportement d'échelle positif en augmentant les données d'entraînement préliminaire et la taille du modèle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp