HyperAIHyperAI

Command Palette

Search for a command to run...

Whispering LLaMA: Ein multimodales generatives Fehlerkorrekturframework für Spracherkennung

Srijith Radhakrishnan Chao-Han Huck Yang Sumeer Ahmad Khan Rohit Kumar Narsis A. Kiani David Gomez-Cabrero Jesper N. Tegner

Zusammenfassung

Wir stellen eine neue, auf Kreuzmodaler Fusion basierende Technik vor, die für die generative Fehlerkorrektur in der automatischen Spracherkennung (ASR) entwickelt wurde. Unsere Methode nutzt sowohl akustische Informationen als auch externe sprachliche Darstellungen, um präzise Kontexte für Sprachtranskriptionen zu generieren. Dies markiert einen Schritt hin zu einem neuen Paradigma der generativen Fehlerkorrektur innerhalb des Rahmens von n-Best-Hypothesen. Im Gegensatz zu bestehenden, auf Rangfolge basierenden Nachbewertungsmethoden setzt unsere Herangehensweise gezielt unterschiedliche Initialisierungstechniken und parameter-effiziente Algorithmen ein, um die Leistungsfähigkeit von ASR-Systemen, die auf vortrainierten Sprach- und Textmodellen basieren, zu steigern. Durch Evaluierung an diversen ASR-Datensätzen untersuchen wir die Stabilität und Reproduzierbarkeit unserer Fusionsmethode und zeigen, dass sie im Vergleich zu n-Best-Hypothesen eine Verbesserung der relativen Wortfehlerquote (WERR) um insgesamt 37,66 % erreicht. Um zukünftige Forschung zu fördern, stellen wir unseren Quellcode und die vortrainierten Modelle unter https://github.com/Srijith-rkr/Whispering-LLaMA öffentlich zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp