MMS-LLaMA: Effiziente, auf LLMs basierende audiovisuelle Spracherkennung mit minimalen multimodalen Sprachtokens

Audio-Visual-Spracherkennung (AVSR) erreicht eine robuste Spracherkennung in lautstarken Umgebungen durch die Kombination von auditorischen und visuellen Informationen. Allerdings verursachen neuere AVSR-Systeme, die auf großen Sprachmodellen (LLM) basieren, aufgrund der hohen zeitlichen Auflösung der von LLMs verarbeiteten audiovisuellen Sprache erhebliche Rechenkosten. In dieser Arbeit stellen wir einen effizienten multimodalen Sprach-LLM-Framework vor, der die Tokenlänge minimiert, ohne wesentliche sprachliche Inhalte zu verlieren. Unser Ansatz setzt auf ein frühes AV-Fusionsmodul zur vereinfachten Merkmalsintegration, einen audiovisuellen Sprach-Q-Former, der dynamisch die Tokenzuweisung basierend auf der Eingabedauer anpasst, sowie eine verfeinerte Abfragezuweisungsstrategie mit einem Sprechgeschwindigkeitsvorhersager, um die Tokenzuweisung an die jeweilige Sprechgeschwindigkeit jedes Audiomusters anzupassen. Umfangreiche Experimente auf dem LRS3-Datensatz zeigen, dass unsere Methode eine state-of-the-art-Leistung mit einem WER von 0,72 % erzielt, wobei lediglich 3,5 Tokens pro Sekunde verwendet werden. Darüber hinaus reduziert unser Ansatz die Token-Nutzung um 86 % im Vergleich zum vorherigen multimodalen Sprach-LLM-Framework und verbessert gleichzeitig die Recheneffizienz um 35,7 %, gemessen an den FLOPs.