vor 17 Tagen

FANS: Fusions von ASR und NLU für SLU auf Geräten

Martin Radfar, Athanasios Mouchtaris, Siegfried Kunzmann, Ariya Rastrow

Abstract

Sprachverstehenssysteme (Spoken Language Understanding, SLU) übersetzen Spracheingabebefehle in Semantik, die als Absicht (intent) sowie Paare aus Slot-Tags und -Werten codiert werden. Die meisten aktuellen SLU-Systeme setzen auf eine Kaskade aus zwei neuronalen Modellen, wobei das erste Modell die Eingabesprache in einen Transkript (ASR: Automatic Speech Recognition) umwandelt und das zweite Modell aus dem Transkript die Absicht und die Slots vorhersagt (NLU: Natural Language Understanding). In diesem Artikel stellen wir FANS vor, ein neuartiges end-to-end SLU-Modell, das einen ASR-Audio-Encoder mit einem Multi-Task-NLU-Decoder fusioniert, um Absicht, Slot-Tags und Slot-Werte direkt aus der Eingabesprache abzuleiten, wodurch die Notwendigkeit einer Transkription entfällt. FANS besteht aus einem gemeinsamen Audio-Encoder und drei Decodern, wobei zwei davon sequenz-zu-Sequenz-Decodierer sind, die nicht-null Slot-Tags und Slot-Werte parallel und in autoregressiver Weise vorhersagen. Die Architektur des neuronalen Encoders und der Decodierer von FANS ist flexibel und ermöglicht die Nutzung verschiedener Kombinationen aus LSTM, Self-Attention und Attendern. Unsere Experimente zeigen, dass FANS im Vergleich zu aktuellen state-of-the-art end-to-end SLU-Modellen bei Tests auf einem internen SLU-Datensatz die ICER- und IRER-Fehler relativ um jeweils 30 % und 7 % reduziert, und bei Tests auf einem öffentlichen SLU-Datensatz um 0,86 % und 2 % absolut.