HyperAIHyperAI

Command Palette

Search for a command to run...

Generative Speech Recognition Error Correction mit großen Sprachmodellen und aufgabenaktiverenden Prompting

Chao-Han Huck Yang Yile Gu Yi-Chieh Liu Shalini Ghosh Ivan Bulyko Andreas Stolcke

Zusammenfassung

Wir untersuchen die Fähigkeit großer Sprachmodelle (Large Language Models, LLMs), als Nachbearbeitungswerkzeuge für Spracherkennung zu fungieren, indem sie die Wiedergabe von Spracherkennungsergebnissen (Rescoring) und Fehlerkorrektur durchführen. Unser erster Schwerpunkt liegt auf der Anweisungsprägung (Instruction Prompting), um LLMs diese Aufgaben ohne Fine-Tuning zu ermöglichen. Hierbei evaluieren wir verschiedene Prompting-Schemata, sowohl zero-shot- als auch few-shot in-context Learning, sowie eine neuartige Methode des Aufgaben-Aktivierungs-Prompting, die kausale Anweisungen mit Demonstrationen kombiniert, um die Nutzung der Kontextfenster zu erhöhen. Anschließend zeigen wir, dass ein Rescoring allein durch in-context Learning mit fixierten LLMs Ergebnisse erzielt, die mit denen eines domain-tunenden Sprachmodells konkurrieren, wobei ein vortrainiertes Erstpass-Erkennungssystem verwendet wird und die Nachbearbeitung auf zwei außerhalb des Trainingsdomains liegenden Aufgaben (ATIS und WSJ) durchgeführt wird. Durch die Kombination von Prompting-Techniken mit Fine-Tuning erreichen wir Fehlerquoten unterhalb des N-best-Oracle-Niveaus, was die Generalisierungsfähigkeit der LLMs eindrucksvoll unterstreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp