Ein auf einzigem Kopf basierendes Aufmerksamkeits-Sequence-to-Sequence-Modell für state-of-the-art-Ergebnisse auf Switchboard

Es wird allgemein angenommen, dass direkte sequenz-zu-Sequenz (seq2seq)-Spracherkennungsmodelle erst dann mit hybriden Modellen konkurrieren können, wenn eine große Menge an Daten, mindestens tausend Stunden, für das Training zur Verfügung steht. In dieser Arbeit zeigen wir, dass mit einem einzeln kopflastigen Aufmerksamkeits- (attention)-Modell auf Basis von LSTMs ein state-of-the-art Erkennungsergebnis auf der Switchboard-300-Datenbank erzielt werden kann. Mit einem über Sprecher hinweg gültigen Sprachmodell erreicht unser einphasiger, sprachunabhängiger System eine Wortfehlerquote (WER) von 6,4 % und 12,5 % auf den Switchboard- und CallHome-Teilmengen des Hub5’00-Datensatzes, ohne dass eine Aussprachelexikon verwendet wird. Während sorgfältige Regularisierung und Datenverstärkung (data augmentation) entscheidend für diese Leistung sind, zeigen Experimente auf Switchboard-2000, dass nichts so wirksam ist wie mehr Daten. Insgesamt führt die Kombination verschiedener Regularisierungsstrategien mit einem einfachen, aber relativ großen Modell zu einem neuen State-of-the-Art: 4,7 % und 7,8 % WER auf den Switchboard- und CallHome-Teilmengen, wobei SWB-2000 ohne externe Datenquellen verwendet wird.