vor 2 Monaten

Große Sprachmodelle sind starke Audiovisuelle Sprechverarbeitungslerner

Umberto Cappellazzo; Minsu Kim; Honglie Chen; Pingchuan Ma; Stavros Petridis; Daniele Falavigna; Alessio Brutti; Maja Pantic

Details der Forschungsarbeit anzeigen

Große Sprachmodelle sind starke Audiovisuelle Sprechverarbeitungslerner

Abstract

Multimodale große Sprachmodelle (MLLMs) sind kürzlich aufgrund ihrer beeindruckenden Fähigkeiten zur multimodalen Verarbeitung zum Schwerpunkt der Forschung geworden. Zum Beispiel können große Sprachmodelle (LLMs) im Bereich Audio und Sprache durch einfaches Anhängen von Audiosymbolen, die mit einem Audioencoder berechnet werden, an Textsymbole mit (automatischen) Spracherkennungsfähigkeiten (ASR) ausgestattet werden, um Stand-des-Wissens-Ergebnisse zu erzielen. Im Gegensatz dazu haben Aufgaben wie visuelle und audiovisuelle Spracherkennung (VSR/AVSR), die ebenfalls rauschinvariante Lippenbewegungen nutzen, bisher wenig oder gar keine Aufmerksamkeit erhalten. Um diese Lücke zu schließen, schlagen wir Llama-AVSR vor, ein neues MLLM mit starken audiovisuellen Spracherkennungsfähigkeiten. Es nutzt vortrainierte Audio- und Videoencoders, um modalitätsspezifische Symbole zu erzeugen, die zusammen mit den Textsymbolen von einem vortrainierten LLM (z.B. Llama3.1-8B) verarbeitet werden, um die resultierende Antwort in einer autoregressiven Weise zu generieren. Llama-AVSR benötigt nur eine geringe Anzahl von trainierbaren Parametern, da nur modalitätsspezifische Projektoren und LoRA-Module trainiert werden, während die multimodalen Encoders und das LLM gefroren bleiben. Wir evaluieren unseren vorgeschlagenen Ansatz am größten öffentlichen AVSR-Benchmark, dem LRS3, und erreichen neue Stand-des-Wissens-Ergebnisse für die Aufgaben ASR und AVSR mit einer Wortfehlerrate (WER) von 0,79 % und 0,77 % jeweils. Um unsere Ergebnisse zu stärken, untersuchen wir die wesentlichen Faktoren, die die Effektivität von Llama-AVSR untermauern: die Auswahl der vortrainierten Encoders und des LLMs, die effiziente Integration der LoRA-Module sowie den optimalen Kompromiss zwischen Leistung und Effizienz durch modalitätsbewusste Kompressionsraten.