HyperAIHyperAI
il y a 2 mois

Video-LLaMA : Un modèle de langage audiovisuel ajusté à l'instruction pour la compréhension vidéo

Hang Zhang; Xin Li; Lidong Bing
Video-LLaMA : Un modèle de langage audiovisuel ajusté à l'instruction pour la compréhension vidéo
Résumé

Nous présentons Video-LLaMA, un cadre multi-modal qui confère aux grands modèles de langage (LLMs) la capacité de comprendre à la fois le contenu visuel et auditif des vidéos. Video-LLaMA initie l'entraînement croisé à partir d'encodeurs visuels et audio pré-entraînés figés ainsi que de LLMs figés. Contrairement aux travaux précédents qui complètent les LLMs pour traiter uniquement les signaux visuels ou auditifs, Video-LLaMA permet la compréhension vidéo en relevant deux défis : (1) capturer les changements temporels dans les scènes visuelles, (2) intégrer les signaux audiovisuels. Pour relever le premier défi, nous proposons un Video Q-former pour assembler un encodeur d'image pré-entraîné dans notre encodeur vidéo et introduisons une tâche de génération texte-vidéo pour apprendre la correspondance vidéo-langage. Pour le deuxième défi, nous utilisons ImageBind, un modèle d'embedding universel alignant plusieurs modalités, comme encodeur audio pré-entraîné et introduisons un Audio Q-former au-dessus d'ImageBind pour apprendre des plongements de requêtes auditives raisonnables pour le module LLM. Afin d'aligner la sortie des encodeurs visuels et audio avec l'espace d'embedding du LLM, nous entraînons d'abord Video-LLaMA sur de nombreuses paires vidéo/image-sous-titres, puis ajustons notre modèle avec des jeux de données d'instructions visuelles de taille modérée mais de meilleure qualité. Nous avons constaté que Video-LLaMA montre la capacité de percevoir et comprendre le contenu vidéo et de générer des réponses significatives basées sur les informations visuelles et auditives présentées dans les vidéos.