HyperAIHyperAI

Command Palette

Search for a command to run...

Es ist nie zu spät: Fusion von akustischen Informationen in große Sprachmodelle für die automatische Spracherkennung

Chen Chen Ruizhe Li Yuchen Hu Sabato Marco Siniscalchi Pin-Yu Chen Eng Siong Chng Chao-Han Huck Yang

Zusammenfassung

Neuere Studien haben erfolgreich gezeigt, dass große Sprachmodelle (LLMs) effektiv zur generativen Fehlerkorrektur (GER) auf der Grundlage des automatischen Spracherkennungsausgangs (ASR) eingesetzt werden können. Insbesondere wird ein LLM verwendet, um eine direkte Zuordnung von der Liste der N-besten Hypothesen, die von einem ASR-System erzeugt wurden, zur vorhergesagten Ausgabetranskription durchzuführen. Trotz seiner Effektivität führt GER jedoch zusätzliche Datenunsicherheiten ein, da das LLM ohne Berücksichtigung der akustischen Informationen im Sprachsignal trainiert wird. In dieser Arbeit streben wir an, diese Einschränkung zu überwinden, indem wir akustische Informationen vor der Generierung der vorhergesagten Transkription durch eine neuartige späte Fusionlösung namens Unsicherheitsbewusste Dynamische Fusion (UADF) integrieren. UADF ist ein multimodales Fusionverfahren, das in einen autoregressiven Decodingprozess implementiert ist und in zwei Phasen arbeitet: (i) Es analysiert und kalibriert zunächst die tokenbasierte Entscheidung des LLMs und (ii) es nimmt dann dynamisch Informationen aus dem akustischen Modus auf. Experimentelle Beweise aus verschiedenen ASR-Aufgaben zeigen, dass UADF bestehende Fusionmechanismen in mehreren Hinsichten übertrifft. Es führt zu signifikanten Verbesserungen des Wortfehlerrates (WER), während es gleichzeitig die Datenunsicherheiten im LLM reduziert und Probleme mit der schlechten Generalisierung bei einzelnen Modalitäten während der Fusion anspricht. Wir demonstrieren außerdem, dass UADF nahtlos auf audiovisuelle Spracherkennung anpasst.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Es ist nie zu spät: Fusion von akustischen Informationen in große Sprachmodelle für die automatische Spracherkennung | Paper | HyperAI