Generative Speech Recognition Error Correction mit großen Sprachmodellen und aufgabenaktiverenden Prompting

Wir untersuchen die Fähigkeit großer Sprachmodelle (Large Language Models, LLMs), als Nachbearbeitungswerkzeuge für Spracherkennung zu fungieren, indem sie die Wiedergabe von Spracherkennungsergebnissen (Rescoring) und Fehlerkorrektur durchführen. Unser erster Schwerpunkt liegt auf der Anweisungsprägung (Instruction Prompting), um LLMs diese Aufgaben ohne Fine-Tuning zu ermöglichen. Hierbei evaluieren wir verschiedene Prompting-Schemata, sowohl zero-shot- als auch few-shot in-context Learning, sowie eine neuartige Methode des Aufgaben-Aktivierungs-Prompting, die kausale Anweisungen mit Demonstrationen kombiniert, um die Nutzung der Kontextfenster zu erhöhen. Anschließend zeigen wir, dass ein Rescoring allein durch in-context Learning mit fixierten LLMs Ergebnisse erzielt, die mit denen eines domain-tunenden Sprachmodells konkurrieren, wobei ein vortrainiertes Erstpass-Erkennungssystem verwendet wird und die Nachbearbeitung auf zwei außerhalb des Trainingsdomains liegenden Aufgaben (ATIS und WSJ) durchgeführt wird. Durch die Kombination von Prompting-Techniken mit Fine-Tuning erreichen wir Fehlerquoten unterhalb des N-best-Oracle-Niveaus, was die Generalisierungsfähigkeit der LLMs eindrucksvoll unterstreicht.