Gemeinsames Online-Verstehen gesprochener Sprache und Sprachmodellierung mit rekurrenten neuronalen Netzen

Die Erkennung der Sprechendenabsicht und das semantische Slot-Füllen sind zwei entscheidende Aufgaben im Verstehen gesprochener Sprache (Spoken Language Understanding, SLU) für Dialogsysteme. In dieser Arbeit beschreiben wir ein rekurrentes neuronales Netzwerk (Recurrent Neural Network, RNN), das die Absichtserkennung, Slot-Füllung und Sprachmodellierung gemeinsam durchführt. Das neuronale Netzwerk aktualisiert die Absichtsschätzung kontinuierlich, während Wörter des transkribierten Satzes eintreffen, und verwendet sie als kontextuelle Merkmale im gemeinsamen Modell. Die Bewertung des Sprachmodells und des Online-SLU-Modells erfolgt anhand des ATIS-Benchmark-Datensatzes. Bei der Aufgabe der Sprachmodellierung erreicht unser gemeinsames Modell eine relative Perplexitätsreduzierung von 11,8 % im Vergleich zum unabhängig trainierten Sprachmodell. Bei den SLU-Aufgaben übertrifft unser gemeinsames Modell das unabhängig trainierte Task-Modell um 22,3 % in Bezug auf die Fehlerquote der Absichtserkennung, wobei es einen geringfügigen Rückgang des F1-Scores bei der Slot-Füllung gibt. Das gemeinsame Modell zeigt auch vorteilhafte Leistungen in realistischen ASR-Einstellungen mit verrauschten Spracheingaben.