Skalierbare neuronale Dialogzustandsverfolgung

Ein Dialogzustands-Tracker (DST) ist eine zentrale Komponente in einem Dialogsystem, deren Ziel darin besteht, die Überzeugungen bezüglich möglicher Benutzerziele in jeder Dialogrunde zu schätzen. Die meisten aktuellen DST-Tracker basieren auf rekurrenten neuronalen Netzen und nutzen komplexe Architekturen, die verschiedene Aspekte eines Dialogs berücksichtigen, darunter die Benutzeräußerungen, die Systemaktionen sowie die Slot-Wert-Paare, die in einer Domänenontologie definiert sind. Die Komplexität solcher neuronalen Architekturen führt jedoch zu erheblicher Verzögerung bei der Vorhersage des Dialogzustands, was die Anwendung dieser Modelle in realen Anwendungen einschränkt, insbesondere dann, wenn eine hohe Aufgaben-Skalierbarkeit (d. h. die Anzahl der Slots) entscheidend ist. In diesem Paper stellen wir ein innovatives neuronales Modell für den Dialogzustands-Tracking vor, das als Global encoder and Slot-Attentive decoders (G-SAT) bezeichnet wird. Das Modell ermöglicht eine Vorhersage des Dialogzustands mit äußerst geringer Latenzzeit, während gleichzeitig eine hohe Leistungsfähigkeit erhalten bleibt. Wir berichten über Experimente an drei verschiedenen Sprachen (Englisch, Italienisch und Deutsch) des WoZ2.0-Datensatzes und zeigen, dass der vorgeschlagene Ansatz sowohl hinsichtlich der Genauigkeit als auch hinsichtlich der Zeitkomplexität der Vorhersage gegenüber bestehenden State-of-the-Art-DST-Systemen Wettbewerbsvorteile bietet und mehr als 15-mal schneller ist als die anderen Systeme.