HyperAIHyperAI

Command Palette

Search for a command to run...

MMS-LLaMA: Effiziente, auf LLMs basierende audiovisuelle Spracherkennung mit minimalen multimodalen Sprachtokens

Yeo Jeong Hun Rha Hyeongseop Park Se Jin Ro Yong Man

Zusammenfassung

Audio-Visual-Spracherkennung (AVSR) erreicht eine robuste Spracherkennung in lautstarken Umgebungen durch die Kombination von auditorischen und visuellen Informationen. Allerdings verursachen neuere AVSR-Systeme, die auf großen Sprachmodellen (LLM) basieren, aufgrund der hohen zeitlichen Auflösung der von LLMs verarbeiteten audiovisuellen Sprache erhebliche Rechenkosten. In dieser Arbeit stellen wir einen effizienten multimodalen Sprach-LLM-Framework vor, der die Tokenlänge minimiert, ohne wesentliche sprachliche Inhalte zu verlieren. Unser Ansatz setzt auf ein frühes AV-Fusionsmodul zur vereinfachten Merkmalsintegration, einen audiovisuellen Sprach-Q-Former, der dynamisch die Tokenzuweisung basierend auf der Eingabedauer anpasst, sowie eine verfeinerte Abfragezuweisungsstrategie mit einem Sprechgeschwindigkeitsvorhersager, um die Tokenzuweisung an die jeweilige Sprechgeschwindigkeit jedes Audiomusters anzupassen. Umfangreiche Experimente auf dem LRS3-Datensatz zeigen, dass unsere Methode eine state-of-the-art-Leistung mit einem WER von 0,72 % erzielt, wobei lediglich 3,5 Tokens pro Sekunde verwendet werden. Darüber hinaus reduziert unser Ansatz die Token-Nutzung um 86 % im Vergleich zum vorherigen multimodalen Sprach-LLM-Framework und verbessert gleichzeitig die Recheneffizienz um 35,7 %, gemessen an den FLOPs.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp