il y a 2 mois

Où la Parole Visuelle Rencontre le Langage : Cadre VSP-LLM pour un Traitement de la Parole Visuelle Efficace et Contextuel

Yeo, Jeong Hun ; Han, Seunghee ; Kim, Minsu ; Ro, Yong Man

Résumé

Dans le traitement de la parole visuelle, la capacité de modélisation du contexte est l'une des exigences les plus importantes en raison de la nature ambiguë des mouvements des lèvres. Par exemple, les homophones, des mots qui partagent des mouvements labiaux identiques mais produisent différents sons, peuvent être distingués en prenant en compte le contexte. Dans cet article, nous proposons un nouveau cadre, appelé Traitement de la Parole Visuelle intégré avec des Modèles Linguistiques à Grandes Échelles (VSP-LLM), afin d'optimiser la capacité de modélisation du contexte grâce à l'apport considérable des LLMs. Plus précisément, VSP-LLM est conçu pour effectuer plusieurs tâches de reconnaissance et de traduction de la parole visuelle, où les instructions données contrôlent le type de tâche. La vidéo d'entrée est mappée dans l'espace latent d'entrée d'un modèle linguistique à grandes échelles (LLM) en utilisant un modèle de parole visuelle auto-supervisé. En se concentrant sur le fait qu'il existe une information redondante dans les images d'entrée, nous proposons une nouvelle méthode de déduplication qui réduit les caractéristiques visuelles intégrées en utilisant des unités de parole visuelle. Grâce à la déduplication proposée et à l'Adaptation par Rang Faible (Low Rank Adaptation - LoRA), VSP-LLM peut être formé de manière efficace sur le plan computationnel. Dans le jeu de données de traduction MuAViC, nous montrons que VSP-LLM formé sur seulement 30 heures de données étiquetées peut traduire les mouvements des lèvres plus efficacement que le modèle récent formé sur 433 heures de données.