HyperAIHyperAI

Command Palette

Search for a command to run...

Große Sprachmodelle sind starke Audiovisuelle Sprechverarbeitungslerner

Umberto Cappellazzo Minsu Kim Honglie Chen Pingchuan Ma Stavros Petridis Daniele Falavigna Alessio Brutti Maja Pantic

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) sind kürzlich aufgrund ihrer beeindruckenden Fähigkeiten zur multimodalen Verarbeitung zum Schwerpunkt der Forschung geworden. Zum Beispiel können große Sprachmodelle (LLMs) im Bereich Audio und Sprache durch einfaches Anhängen von Audiosymbolen, die mit einem Audioencoder berechnet werden, an Textsymbole mit (automatischen) Spracherkennungsfähigkeiten (ASR) ausgestattet werden, um Stand-des-Wissens-Ergebnisse zu erzielen. Im Gegensatz dazu haben Aufgaben wie visuelle und audiovisuelle Spracherkennung (VSR/AVSR), die ebenfalls rauschinvariante Lippenbewegungen nutzen, bisher wenig oder gar keine Aufmerksamkeit erhalten. Um diese Lücke zu schließen, schlagen wir Llama-AVSR vor, ein neues MLLM mit starken audiovisuellen Spracherkennungsfähigkeiten. Es nutzt vortrainierte Audio- und Videoencoders, um modalitätsspezifische Symbole zu erzeugen, die zusammen mit den Textsymbolen von einem vortrainierten LLM (z.B. Llama3.1-8B) verarbeitet werden, um die resultierende Antwort in einer autoregressiven Weise zu generieren. Llama-AVSR benötigt nur eine geringe Anzahl von trainierbaren Parametern, da nur modalitätsspezifische Projektoren und LoRA-Module trainiert werden, während die multimodalen Encoders und das LLM gefroren bleiben. Wir evaluieren unseren vorgeschlagenen Ansatz am größten öffentlichen AVSR-Benchmark, dem LRS3, und erreichen neue Stand-des-Wissens-Ergebnisse für die Aufgaben ASR und AVSR mit einer Wortfehlerrate (WER) von 0,79 % und 0,77 % jeweils. Um unsere Ergebnisse zu stärken, untersuchen wir die wesentlichen Faktoren, die die Effektivität von Llama-AVSR untermauern: die Auswahl der vortrainierten Encoders und des LLMs, die effiziente Integration der LoRA-Module sowie den optimalen Kompromiss zwischen Leistung und Effizienz durch modalitätsbewusste Kompressionsraten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Große Sprachmodelle sind starke Audiovisuelle Sprechverarbeitungslerner | Paper | HyperAI