HyperAIHyperAI

Command Palette

Search for a command to run...

Où la Parole Visuelle Rencontre le Langage : Cadre VSP-LLM pour un Traitement de la Parole Visuelle Efficace et Contextuel

Jeong Hun Yeo* Seunghee Han* Minsu Kim Yong Man Ro†

Résumé

Dans le traitement de la parole visuelle, la capacité de modélisation du contexte est l'une des exigences les plus importantes en raison de la nature ambiguë des mouvements des lèvres. Par exemple, les homophones, des mots qui partagent des mouvements labiaux identiques mais produisent différents sons, peuvent être distingués en prenant en compte le contexte. Dans cet article, nous proposons un nouveau cadre, appelé Traitement de la Parole Visuelle intégré avec des Modèles Linguistiques à Grandes Échelles (VSP-LLM), afin d'optimiser la capacité de modélisation du contexte grâce à l'apport considérable des LLMs. Plus précisément, VSP-LLM est conçu pour effectuer plusieurs tâches de reconnaissance et de traduction de la parole visuelle, où les instructions données contrôlent le type de tâche. La vidéo d'entrée est mappée dans l'espace latent d'entrée d'un modèle linguistique à grandes échelles (LLM) en utilisant un modèle de parole visuelle auto-supervisé. En se concentrant sur le fait qu'il existe une information redondante dans les images d'entrée, nous proposons une nouvelle méthode de déduplication qui réduit les caractéristiques visuelles intégrées en utilisant des unités de parole visuelle. Grâce à la déduplication proposée et à l'Adaptation par Rang Faible (Low Rank Adaptation - LoRA), VSP-LLM peut être formé de manière efficace sur le plan computationnel. Dans le jeu de données de traduction MuAViC, nous montrons que VSP-LLM formé sur seulement 30 heures de données étiquetées peut traduire les mouvements des lèvres plus efficacement que le modèle récent formé sur 433 heures de données.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp