Sprachmodell-Vortraining für end-to-end gesprochene Sprachverarbeitung

Während herkömmliche Systeme zur Verarbeitung gesprochener Sprache (Spoken Language Understanding, SLU) die Rede zunächst in Text und dann den Text in eine Absicht umwandeln, kartieren End-to-End-SLU-Systeme die Rede direkt auf eine Absicht durch ein einzelnes trainierbares Modell. Die Erreichung hoher Genauigkeit mit diesen End-to-End-Modellen ohne eine große Menge an Trainingsdaten ist schwierig. Wir schlagen eine Methode vor, um die Datenanforderungen von End-to-End-SLU zu reduzieren, bei der das Modell zunächst vortrainiert wird, um Wörter und Phoneme vorherzusagen, wodurch es gute Merkmale für SLU lernt. Wir stellen einen neuen SLU-Datensatz, Fluent Speech Commands, vor und zeigen, dass unsere Methode die Leistung sowohl verbessert, wenn der gesamte Datensatz für das Training verwendet wird, als auch wenn nur ein kleiner Teil davon verwendet wird. Darüber hinaus beschreiben wir erste Experimente, um das Vorhersagevermögen des Modells bezüglich neuer Phrasen zu bewerten, die während des Trainings nicht gehört wurden.