HyperAIHyperAI

Command Palette

Search for a command to run...

Zu einer wettbewerbsfähigen end-to-end Spracherkennung für die CHiME-6-Dinner-Party-Transkription

Andrei Andrusenko Aleksandr Laptev Ivan Medennikov

Zusammenfassung

Obwohl end-to-end ASR-Systeme sich gegenüber dem herkömmlichen hybriden Ansatz als wettbewerbsfähig erwiesen haben, neigen sie unter rauschhaften und ressourcenarmen Bedingungen zu einer Abnahme der Genauigkeit. In diesem Paper argumentieren wir, dass selbst in solch anspruchsvollen Szenarien einige end-to-end-Ansätze eine Leistung nahe der hybriden Baseline erreichen. Um dies zu veranschaulichen, nutzen wir die Daten des CHiME-6-Challenges als Beispiel für herausfordernde Umgebungen und rauschhafte Bedingungen des alltäglichen Sprechens. Wir vergleichen und analysieren experimentell die Ansätze CTC-Attention gegenüber RNN-Transducer sowie die Architekturen RNN im Vergleich zu Transformer. Zudem stellen wir einen Vergleich akustischer Merkmale und Sprachverbesserungstechniken vor. Außerdem evaluieren wir die Wirksamkeit von neuronalen Sprachmodellen zur Hypothesen-Neubewertung unter ressourcenarmen Bedingungen. Unser bestes end-to-end-Modell basierend auf dem RNN-Transducer-Ansatz, kombiniert mit einer verbesserten Beam-Search-Strategie, erreicht eine Qualität, die nur um 3,8 % absoluten WER hinter der LF-MMI TDNN-F-Baselinie des CHiME-6-Challenges liegt. Mit der basierend auf Guided Source Separation durchgeführten Datenaugmentation übertrifft dieser Ansatz sowohl die hybride Baseline um 2,7 % absoluten WER als auch das zuvor beste end-to-end-System um 25,7 % absoluten WER.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp