FANS: Fusions von ASR und NLU für SLU auf Geräten

Sprachverstehenssysteme (Spoken Language Understanding, SLU) übersetzen Spracheingabebefehle in Semantik, die als Absicht (intent) sowie Paare aus Slot-Tags und -Werten codiert werden. Die meisten aktuellen SLU-Systeme setzen auf eine Kaskade aus zwei neuronalen Modellen, wobei das erste Modell die Eingabesprache in einen Transkript (ASR: Automatic Speech Recognition) umwandelt und das zweite Modell aus dem Transkript die Absicht und die Slots vorhersagt (NLU: Natural Language Understanding). In diesem Artikel stellen wir FANS vor, ein neuartiges end-to-end SLU-Modell, das einen ASR-Audio-Encoder mit einem Multi-Task-NLU-Decoder fusioniert, um Absicht, Slot-Tags und Slot-Werte direkt aus der Eingabesprache abzuleiten, wodurch die Notwendigkeit einer Transkription entfällt. FANS besteht aus einem gemeinsamen Audio-Encoder und drei Decodern, wobei zwei davon sequenz-zu-Sequenz-Decodierer sind, die nicht-null Slot-Tags und Slot-Werte parallel und in autoregressiver Weise vorhersagen. Die Architektur des neuronalen Encoders und der Decodierer von FANS ist flexibel und ermöglicht die Nutzung verschiedener Kombinationen aus LSTM, Self-Attention und Attendern. Unsere Experimente zeigen, dass FANS im Vergleich zu aktuellen state-of-the-art end-to-end SLU-Modellen bei Tests auf einem internen SLU-Datensatz die ICER- und IRER-Fehler relativ um jeweils 30 % und 7 % reduziert, und bei Tests auf einem öffentlichen SLU-Datensatz um 0,86 % und 2 % absolut.