vor 17 Tagen

Die Integration von aufgabenorientierten und offenen Domänen-Dialogen in conversational Agents

Tom Young, Frank Xing, Vlad Pandelea, Jinjie Ni, Erik Cambria

Abstract

Das Ziel der Entwicklung intelligenter Dialogsysteme wurde bisher weitgehend unter zwei Paradigmen getrennt verfolgt: Aufgabenorientierte Dialogsysteme (Task-Oriented Dialogue, TOD) zur Durchführung zielgerichteter Funktionen und offene Domänen-Dialogsysteme (Open-Domain Dialogue, ODD) zur nicht-zielgerichteten Small Talk-Interaktion. Beide Dialogformate könnten potenziell nahtlos in derselben Konversation miteinander verflochten werden, wie es ein freundlicher menschlicher Assistent selbstverständlich tut. Diese Fähigkeit ist für conversational agents wünschenswert, da die Integration sie zugänglicher und nützlicher macht. In unserer Arbeit behandeln wir das Problem der Fusion von TOD- und ODD-Interaktionen in mehrschrittigen Dialogen. Aufbauend auf dem etablierten TOD-Datensatz MultiWOZ erstellen wir einen neuen Datensatz namens FusedChat, indem wir bestehende TOD-Interaktionen umschreiben und neue ODD-Interaktionen hinzufügen. Dieser Prozess erzeugt Gesprächssitzungen, die Austauschelemente aus beiden Dialogformen enthalten und intermodale Kontextabhängigkeit aufweisen, d. h., die Dialogbeiträge beider Modi hängen voneinander ab. Die Daten enthalten reichhaltige Abhängigkeitsmuster wie Ko-Referenz und Ellipse. Der neue Datensatz, bestehend aus 60.000 neu geschriebenen, menschlich verfassten ODD-Beiträgen und 5.000 umgeschriebenen TOD-Beiträgen, bietet eine Benchmark, um die Fähigkeit eines Dialogmodells zur Durchführung intermodaler Gespräche zu testen. Dies stellt eine anspruchsvollere Aufgabe dar, da das Modell nicht nur den geeigneten Dialogmodus erkennen, sondern auch auf Basis des intermodalen Kontexts eine angemessene Antwort generieren muss. Solche Modelle können menschliche Gesprächsfähigkeiten besser nachahmen. Wir evaluieren Basismodelle auf dieser Aufgabe, darunter klassifikationsbasierte zweistufige Modelle und integrierte zwei-in-eins-Modelle. FusedChat und die Baseline-Modelle stellen wir öffentlich zur Verfügung, um zukünftige Forschung an intermodalen Dialogsystemen zu fördern: https://github.com/tomyoung903/FusedChat.