HyperAIHyperAI

Command Palette

Search for a command to run...

Die Erreichung der menschlichen Parität bei der Konversations-Spracherkennung

W. Xiong J. Droppo X. Huang F. Seide M. Seltzer A. Stolcke D. Yu G. Zweig

Zusammenfassung

Die Konversationsbasierte Spracherkennung dient seit der Veröffentlichung des Switchboard-Korpus in den 1990er Jahren als Leitprojekt für Aufgaben der Spracherkennung. In dieser Arbeit messen wir die Fehlerquote von Menschen am weit verbreiteten NIST 2000 Testdatensatz und stellen fest, dass unser neuestes automatisches System die menschliche Parität erreicht hat. Die Fehlerquote professioneller Transkribierer beträgt 5,9 % für den Switchboard-Teil der Daten, bei dem neu bekannt gewordene Personen ein zugewiesenes Thema diskutieren, und 11,3 % für den CallHome-Teil, bei dem Freunde und Familienmitglieder offene Gespräche führen. In beiden Fällen legt unser automatisches System einen neuen Stand der Technik fest und übertrifft die menschliche Referenz, wobei es Fehlerquoten von 5,8 % und 11,0 % erreicht. Der Schlüssel zur Leistung unseres Systems liegt in der Verwendung verschiedener konvolutiver und LSTM-basierter Akustikmodellarchitekturen, kombiniert mit einer neuartigen räumlichen Glättungsmethode und einem akustischen Training ohne Gitter (lattice-free MMI), mehrerer rekurrenter neuronaler Netzwerke zur Sprachmodellierung sowie einer systematischen Nutzung von Systemkombinationen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp