Zu einem skalierbaren neuronalen Dialogzustandsverfolgungsmodell

Die Latenz der aktuellen neuronenbasierten Dialogzustandverfolgungsmodelle verhindert ihre effiziente Verwendung in Produktionsystemen, obwohl sie eine sehr hohe Genauigkeit aufweisen. In dieser Arbeit wird ein neues, skalierbares und genaues neuronales Dialogzustandverfolgungsmodell vorgeschlagen, das auf dem kürzlich von Zhong et al. vorgestellten Global-Local Self-Attention Encoder (GLAD)-Modell basiert. Dieses Modell verwendet globale Module, um Parameter zwischen Schätzern für verschiedene Arten (sogenannte Slots) von Dialogzuständen zu teilen, und lokale Module, um slotspezifische Merkmale zu lernen. Durch die Verwendung nur eines rekurrenten Netzes mit globaler Bedingung im Vergleich zu den (1 + # Slots) rekurrenten Netzen mit globaler und lokaler Bedingung, die im GLAD-Modell verwendet werden, reduziert unser vorgeschlagenes Modell die Latenz in Trainings- und Inferenzzeiten durchschnittlich um 35 %, während es gleichzeitig eine Leistung bei der Überwachung des Glaubenszustands beibehält: 97,38 % bei Turn-Anfragen und 88,51 % bei gemeinsamen Zielen und Genauigkeit. Eine Auswertung am Mehrdomänen-Datensatz (Multi-WoZ) zeigt außerdem, dass unser Modell GLAD bei Turn-Informations- und gemeinsamen Zielgenauigkeiten übertrifft.