HyperAIHyperAI
vor 4 Monaten

Zur Auswahl der Modellierungseinheit für die sequenzbasierte Spracherkennung

Kazuki Irie; Rohit Prabhavalkar; Anjuli Kannan; Antoine Bruguier; David Rybach; Patrick Nguyen
Zur Auswahl der Modellierungseinheit für die sequenzbasierte Spracherkennung
Abstract

In der konventionellen Spracherkennung übertrumpfen phonembasierte Modelle für nicht-phonetische Sprachen wie das Englische graphembasierte Modelle. Die Leistungsdifferenz zwischen beiden Modellen verringert sich in der Regel mit zunehmendem Umfang der Trainingsdaten. In dieser Arbeit untersuchen wir den Einfluss der Wahl des Modellierungseinheits für aufmerksamkeitsbasierte Encoder-Decoder-Modelle. Wir führen Experimente auf den LibriSpeech-Aufgaben mit 100 Stunden, 460 Stunden und 960 Stunden durch, wobei verschiedene ZielEinheiten (Phonem, Graphem und Wortstück) verwendet werden; bei allen Aufgaben stellen wir fest, dass graphembasierte oder wortstückbasierte Modelle konsistent phonembasierte Modelle übertreffen, obwohl sie ohne Lexikon oder externes Sprachmodell evaluiert werden. Wir untersuchen auch die Komplementarität der Modelle: Es zeigt sich, dass wir die WERs (Wortfehlerquote) um bis zu 9 % relativ verbessern können, indem wir N-Best-Listen, die von einem starken wortstückbasierten Baseline-Modell generiert wurden, mit dem Phonem- oder Graphem-Modell reskorieren. Das Reskorieren einer N-Best-Liste, die vom phonembasierten System generiert wurde, bietet jedoch nur begrenzte Verbesserungen. Eine weitere Analyse ergibt, dass wortstückbasierte Modelle divergenter N-Best-Hypothesen erzeugen und somit niedrigere Orakel-WERs als phonembasierte Modelle.