Zu einer wettbewerbsfähigen end-to-end Spracherkennung für die CHiME-6-Dinner-Party-Transkription

Obwohl end-to-end ASR-Systeme sich gegenüber dem herkömmlichen hybriden Ansatz als wettbewerbsfähig erwiesen haben, neigen sie unter rauschhaften und ressourcenarmen Bedingungen zu einer Abnahme der Genauigkeit. In diesem Paper argumentieren wir, dass selbst in solch anspruchsvollen Szenarien einige end-to-end-Ansätze eine Leistung nahe der hybriden Baseline erreichen. Um dies zu veranschaulichen, nutzen wir die Daten des CHiME-6-Challenges als Beispiel für herausfordernde Umgebungen und rauschhafte Bedingungen des alltäglichen Sprechens. Wir vergleichen und analysieren experimentell die Ansätze CTC-Attention gegenüber RNN-Transducer sowie die Architekturen RNN im Vergleich zu Transformer. Zudem stellen wir einen Vergleich akustischer Merkmale und Sprachverbesserungstechniken vor. Außerdem evaluieren wir die Wirksamkeit von neuronalen Sprachmodellen zur Hypothesen-Neubewertung unter ressourcenarmen Bedingungen. Unser bestes end-to-end-Modell basierend auf dem RNN-Transducer-Ansatz, kombiniert mit einer verbesserten Beam-Search-Strategie, erreicht eine Qualität, die nur um 3,8 % absoluten WER hinter der LF-MMI TDNN-F-Baselinie des CHiME-6-Challenges liegt. Mit der basierend auf Guided Source Separation durchgeführten Datenaugmentation übertrifft dieser Ansatz sowohl die hybride Baseline um 2,7 % absoluten WER als auch das zuvor beste end-to-end-System um 25,7 % absoluten WER.