vor 2 Monaten

Es ist nie zu spät: Fusion von akustischen Informationen in große Sprachmodelle für die automatische Spracherkennung

Chen Chen; Ruizhe Li; Yuchen Hu; Sabato Marco Siniscalchi; Pin-Yu Chen; Ensiong Chng; Chao-Han Huck Yang

Abstract

Neuere Studien haben erfolgreich gezeigt, dass große Sprachmodelle (LLMs) effektiv zur generativen Fehlerkorrektur (GER) auf der Grundlage des automatischen Spracherkennungsausgangs (ASR) eingesetzt werden können. Insbesondere wird ein LLM verwendet, um eine direkte Zuordnung von der Liste der N-besten Hypothesen, die von einem ASR-System erzeugt wurden, zur vorhergesagten Ausgabetranskription durchzuführen. Trotz seiner Effektivität führt GER jedoch zusätzliche Datenunsicherheiten ein, da das LLM ohne Berücksichtigung der akustischen Informationen im Sprachsignal trainiert wird. In dieser Arbeit streben wir an, diese Einschränkung zu überwinden, indem wir akustische Informationen vor der Generierung der vorhergesagten Transkription durch eine neuartige späte Fusionlösung namens Unsicherheitsbewusste Dynamische Fusion (UADF) integrieren. UADF ist ein multimodales Fusionverfahren, das in einen autoregressiven Decodingprozess implementiert ist und in zwei Phasen arbeitet: (i) Es analysiert und kalibriert zunächst die tokenbasierte Entscheidung des LLMs und (ii) es nimmt dann dynamisch Informationen aus dem akustischen Modus auf. Experimentelle Beweise aus verschiedenen ASR-Aufgaben zeigen, dass UADF bestehende Fusionmechanismen in mehreren Hinsichten übertrifft. Es führt zu signifikanten Verbesserungen des Wortfehlerrates (WER), während es gleichzeitig die Datenunsicherheiten im LLM reduziert und Probleme mit der schlechten Generalisierung bei einzelnen Modalitäten während der Fusion anspricht. Wir demonstrieren außerdem, dass UADF nahtlos auf audiovisuelle Spracherkennung anpasst.