Untersuchung des Transfer-Lernens für end-to-end gesprochene Sprachverstehens

Sprachassistenten wie Alexa, Siri und Google Assistant verwenden typischerweise eine zweistufige Spoken Language Understanding-Pipeline: Zunächst verarbeitet ein Automatic Speech Recognition (ASR)-Modul die Spracheingabe des Nutzers und generiert Texttranskriptionen, gefolgt von einem Natural Language Understanding (NLU)-Modul, das die Transkriptionen in eine ausführbare Hypothese übersetzt. Ein end-to-end (E2E)-System, das direkt von Sprache zu einer Hypothese geht, stellt eine attraktivere Alternative dar. Solche Systeme erwiesen sich als kleiner, schneller und besser optimierbar. Sie erfordern jedoch riesige Mengen an end-to-end-Trainingsdaten und nutzen zudem nicht die bereits verfügbaren ASR- und NLU-Trainingsdaten.In dieser Arbeit schlagen wir ein E2E-System vor, das darauf ausgelegt ist, gleichzeitig auf mehreren Sprache-zu-Text-Aufgaben wie ASR (Sprache-Transkription) und SLU (Sprache-Hypothese) sowie Text-zu-Text-Aufgaben wie NLU (Text-Hypothese) zu trainieren. Wir bezeichnen dieses Modell als Audio-Text All-Task (AT-AT)-Modell und zeigen, dass es die Leistung von E2E-Modellen, die auf einzelnen Aufgaben trainiert wurden, übertrifft, insbesondere solche, die auf begrenzten Datensätzen trainiert wurden. Diese Ergebnisse erzielen wir auf einem internen Musikdatensatz sowie auf zwei öffentlichen Datensätzen, FluentSpeech und SNIPS Audio, wo wir state-of-the-art-Ergebnisse erreichen. Da unser Modell sowohl Sprach- als auch Texteingabefolgen verarbeiten und lernen kann, eine Zielsequenz vorherzusagen, ermöglicht es zudem die zero-shot E2E-SLU, indem es lediglich auf Text-Hypothese-Daten aus einem neuen Domäne trainiert wird (ohne jegliche Sprachdaten). Wir evaluieren diese Fähigkeit unseres Modells am Facebook TOP-Datensatz und setzen damit eine neue Benchmark für zero-shot E2E-Leistung. Die Audio-Daten, die für den TOP-Datensatz gesammelt wurden, werden in Kürze für zukünftige Forschungszwecke veröffentlicht.