HyperAIHyperAI
vor 17 Tagen

Benötigen wir weiterhin automatische Spracherkennung für die Verständnis von gesprochener Sprache?

Lasse Borgholt, Jakob Drachmann Havtorn, Mostafa Abdou, Joakim Edin, Lars Maaløe, Anders Søgaard, Christian Igel
Benötigen wir weiterhin automatische Spracherkennung für die Verständnis von gesprochener Sprache?
Abstract

Aufgaben des Sprachverstehens (Spoken Language Understanding, SLU) werden üblicherweise dadurch gelöst, dass zunächst eine Äußerung mittels automatischer Spracherkennung (Automatic Speech Recognition, ASR) transkribiert und das Ergebnis anschließend einem textbasierten Modell zugeführt wird. In jüngster Zeit konzentrierten sich Fortschritte im Bereich der selbstüberwachten Darstellungslernung für Sprachdaten vor allem auf die Verbesserung der ASR-Komponente. Wir untersuchen, ob die Darstellungslernung für Sprache bereits ausgereift ist, um die ASR in SLU-Aufgaben zu ersetzen. Hierzu vergleichen wir gelernte Sprachmerkmale aus wav2vec 2.0, aktuell beste ASR-Transkripte und die Ground-Truth-Texte als Eingabe für eine neuartige sprachbasierte Erkennung von Namensentitäten, eine Erkennung von Herzstillständen in echten Notrufen sowie zwei etablierte SLU-Benchmarks. Wir zeigen, dass gelernte Sprachmerkmale auf drei Klassifizierungsaufgaben die ASR-Transkripte überlegen sind. Für die maschinelle Übersetzung bleibt jedoch die Verwendung von ASR-Transkripten weiterhin die bessere Wahl. Wir heben die inhärente Robustheit der wav2vec 2.0-Darstellungen gegenüber Wörtern außerhalb des Vokabulars als entscheidenden Faktor für die bessere Leistung hervor.