HyperAIHyperAI
il y a 2 mois

Les grands modèles de langage sont de puissants apprenants en reconnaissance audiovisuelle de la parole.

Umberto Cappellazzo; Minsu Kim; Honglie Chen; Pingchuan Ma; Stavros Petridis; Daniele Falavigna; Alessio Brutti; Maja Pantic
Les grands modèles de langage sont de puissants apprenants en reconnaissance audiovisuelle de la parole.
Résumé

Les modèles de langage multimodaux à grande échelle (MLLMs) sont récemment devenus un point focal des recherches en raison de leurs capacités impressionnantes de compréhension multimodale. Par exemple, dans les domaines de l'audio et de la parole, un modèle de langage à grande échelle (LLM) peut être doté de capacités de reconnaissance automatique de la parole (ASR) simplement en concaténant les jetons audio, calculés par un encodeur audio, avec les jetons texte pour obtenir des résultats d'état de l'art. En revanche, les tâches comme la reconnaissance visuelle et audio-visuelle de la parole (VSR/AVSR), qui exploitent également les informations sur les mouvements labiaux invariant aux bruits, ont reçu peu ou pas d'attention. Pour combler cette lacune, nous proposons Llama-AVSR, un nouveau MLLM doté de puissantes capacités de reconnaissance audio-visuelle de la parole. Il utilise des encodeurs audio et vidéo pré-entraînés pour produire des jetons spécifiques à chaque modalité, qui sont ensuite traités avec les jetons texte par un LLM pré-entraîné (par exemple, Llama3.1-8B) pour générer une réponse finale d'une manière autorégressive. Llama-AVSR nécessite un nombre limité de paramètres entraînables car seuls les projecteurs spécifiques à chaque modalité et les modules LoRA sont entraînés, tandis que les encodeurs multimodaux et le LLM restent figés. Nous évaluons notre approche proposée sur LRS3, le plus grand benchmark public AVSR, et nous obtenons des nouveaux résultats d'état de l'art pour les tâches d'ASR et d'AVSR avec respectivement un taux d'erreur mot (WER) de 0,79 % et 0,77 %. Pour renforcer nos résultats, nous examinons les facteurs clés qui sous-tendent l'efficacité de Llama-AVSR : le choix des encodeurs pré-entraînés et du LLM, l'intégration efficace des modules LoRA, ainsi que le compromis optimal entre performance et efficacité obtenu grâce aux taux de compression sensibles à la modalité.

Les grands modèles de langage sont de puissants apprenants en reconnaissance audiovisuelle de la parole. | Articles de recherche récents | HyperAI