HyperAIHyperAI

Command Palette

Search for a command to run...

Benötigen wir weiterhin automatische Spracherkennung für die Verständnis von gesprochener Sprache?

Lasse Borgholt Jakob Drachmann Havtorn Mostafa Abdou Joakim Edin Lars Maaløe Anders Søgaard Christian Igel

Zusammenfassung

Aufgaben des Sprachverstehens (Spoken Language Understanding, SLU) werden üblicherweise dadurch gelöst, dass zunächst eine Äußerung mittels automatischer Spracherkennung (Automatic Speech Recognition, ASR) transkribiert und das Ergebnis anschließend einem textbasierten Modell zugeführt wird. In jüngster Zeit konzentrierten sich Fortschritte im Bereich der selbstüberwachten Darstellungslernung für Sprachdaten vor allem auf die Verbesserung der ASR-Komponente. Wir untersuchen, ob die Darstellungslernung für Sprache bereits ausgereift ist, um die ASR in SLU-Aufgaben zu ersetzen. Hierzu vergleichen wir gelernte Sprachmerkmale aus wav2vec 2.0, aktuell beste ASR-Transkripte und die Ground-Truth-Texte als Eingabe für eine neuartige sprachbasierte Erkennung von Namensentitäten, eine Erkennung von Herzstillständen in echten Notrufen sowie zwei etablierte SLU-Benchmarks. Wir zeigen, dass gelernte Sprachmerkmale auf drei Klassifizierungsaufgaben die ASR-Transkripte überlegen sind. Für die maschinelle Übersetzung bleibt jedoch die Verwendung von ASR-Transkripten weiterhin die bessere Wahl. Wir heben die inhärente Robustheit der wav2vec 2.0-Darstellungen gegenüber Wörtern außerhalb des Vokabulars als entscheidenden Faktor für die bessere Leistung hervor.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Benötigen wir weiterhin automatische Spracherkennung für die Verständnis von gesprochener Sprache? | Paper | HyperAI