HyperAIHyperAI
vor 18 Tagen

Whispering LLaMA: Ein multimodales generatives Fehlerkorrekturframework für Spracherkennung

Srijith Radhakrishnan, Chao-Han Huck Yang, Sumeer Ahmad Khan, Rohit Kumar, Narsis A. Kiani, David Gomez-Cabrero, Jesper N. Tegner
Whispering LLaMA: Ein multimodales generatives Fehlerkorrekturframework für Spracherkennung
Abstract

Wir stellen eine neue, auf Kreuzmodaler Fusion basierende Technik vor, die für die generative Fehlerkorrektur in der automatischen Spracherkennung (ASR) entwickelt wurde. Unsere Methode nutzt sowohl akustische Informationen als auch externe sprachliche Darstellungen, um präzise Kontexte für Sprachtranskriptionen zu generieren. Dies markiert einen Schritt hin zu einem neuen Paradigma der generativen Fehlerkorrektur innerhalb des Rahmens von n-Best-Hypothesen. Im Gegensatz zu bestehenden, auf Rangfolge basierenden Nachbewertungsmethoden setzt unsere Herangehensweise gezielt unterschiedliche Initialisierungstechniken und parameter-effiziente Algorithmen ein, um die Leistungsfähigkeit von ASR-Systemen, die auf vortrainierten Sprach- und Textmodellen basieren, zu steigern. Durch Evaluierung an diversen ASR-Datensätzen untersuchen wir die Stabilität und Reproduzierbarkeit unserer Fusionsmethode und zeigen, dass sie im Vergleich zu n-Best-Hypothesen eine Verbesserung der relativen Wortfehlerquote (WERR) um insgesamt 37,66 % erreicht. Um zukünftige Forschung zu fördern, stellen wir unseren Quellcode und die vortrainierten Modelle unter https://github.com/Srijith-rkr/Whispering-LLaMA öffentlich zur Verfügung.

Whispering LLaMA: Ein multimodales generatives Fehlerkorrekturframework für Spracherkennung | Neueste Forschungsarbeiten | HyperAI