HyPoradise: Eine Offene Baseline für Generative Speech Recognition mit Large Language Models

Fortschritte in tiefen neuronalen Netzen haben es automatischen Spracherkennungssystemen (ASR) ermöglicht, auf mehreren öffentlich verfügbaren, sauberen Sprachdatensätzen die Leistungsgrenze des Menschen zu erreichen. Dennoch erleiden selbst hochentwickelte ASR-Systeme eine Leistungseinbuße bei ungünstigen Bedingungen, da ein gut trainiertes akustisches Modell empfindlich auf Variationen im Sprachbereich reagiert, beispielsweise Hintergrundgeräusche. Intuitiv lösen Menschen dieses Problem, indem sie auf ihr sprachliches Wissen zurückgreifen: Der Sinn mehrdeutiger gesprochener Ausdrücke wird gewöhnlich aus kontextuellen Hinweisen abgeleitet, wodurch die Abhängigkeit vom auditorischen System reduziert wird. Inspiriert durch diese Beobachtung stellen wir den ersten Open-Source-Benchmark vor, der externe große Sprachmodelle (LLMs) zur Korrektur von ASR-Fehlern nutzt, wobei die N-Best-Entschlüsselungshypothesen informative Elemente für die Vorhersage der korrekten Transkription liefern. Dies stellt einen Paradigmenwechsel gegenüber der traditionellen Sprachmodell-Neubewertung (re-ranking) dar, die lediglich eine einzige Hypothese als Ausgabetranskription auswählen kann. Der vorgeschlagene Benchmark umfasst eine neuartige Datensammlung, HyPoradise (HP), mit über 334.000 Paaren aus N-Best-Hypothesen und entsprechenden korrekten Transkriptionen über gängige Sprachdomänen hinweg. Anhand dieser Datensammlung untersuchen wir drei Arten von Fehlerkorrekturtechniken auf Basis von LLMs mit unterschiedlichen Mengen an annotierten Hypothese-Transkriptions-Paaren, die eine signifikante Reduktion der Wortfehlerquote (WER) erzielen. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode einen Durchbruch erzielt, indem sie die obere Grenze traditioneller, auf Neubewertung basierender Methoden überschreitet. Überraschenderweise kann ein LLM mit angemessener Prompt-Formulierung und seiner generativen Fähigkeit sogar jene Tokens korrigieren, die in der N-Best-Liste fehlen. Wir stellen unsere Ergebnisse öffentlich zugänglich zur Verfügung, inklusive vortrainierter Modelle, um reproduzierbare Pipelines zu ermöglichen und ein neues Evaluierungsparadigma für die ASR-Fehlerkorrektur mittels LLMs bereitzustellen.