vor 17 Tagen

End-to-End Sprachverstehen für verallgemeinerte Sprachassistenten

Michael Saxon, Samridhi Choudhary, Joseph P. McKenna, Athanasios Mouchtaris

Abstract

End-to-End (E2E)-Systeme für gesprochene Sprachverstehens (Spoken Language Understanding, SLU) prognostizieren die Äußerungssemantik direkt aus Sprache mithilfe eines einzigen Modells. Frühere Arbeiten in diesem Bereich konzentrierten sich auf spezifische Aufgaben in festgelegten Domänen, wobei die Ausgabe-Semantik a priori bekannt war und die Eingabesprache eine begrenzte Komplexität aufwies. In dieser Arbeit präsentieren wir unseren Ansatz zur Entwicklung eines E2E-Modells für generalisiertes SLU in kommerziellen Sprachassistenten (Voice Assistants, VAs). Wir schlagen ein vollständig differenzierbares, auf Transformers basierendes hierarchisches System vor, das sowohl auf ASR- als auch auf NLU-Ebene vortrainiert werden kann. Anschließend wird es sowohl auf Transkriptions- als auch auf Semantik-Klassifikationsverlusten feinabgestimmt, um eine Vielzahl unterschiedlicher Absicht- und Argumentkombinationen zu bewältigen. Dies führt zu einem SLU-System, das auf einem komplexen internen generalisierten VA-Datensatz gegenüber Baselines eine signifikante Verbesserung erzielt – mit einer Genauigkeitssteigerung um 43 % – und gleichzeitig die Benchmark von 99 % Genauigkeit auf dem populären Fluent Speech Commands-Datensatz erfüllt. Zusätzlich evaluieren wir unser Modell auf einem anspruchsvollen Testset, das ausschließlich Slot-Argumente enthält, die im Trainingsdatensatz nicht vorkamen, und zeigen eine fast 20-prozentige Verbesserung, was die Wirksamkeit unseres Ansatzes in wirklich anspruchsvollen Szenarien von Sprachassistenten belegt.