GALAXY: Ein generatives vorab trainiertes Modell für taskorientierte Dialoge mit semi-überwachtem Lernen und expliziter Policy-Injektion

Vorabtrainierte Modelle haben sich als äußerst effektiv erwiesen, um task-orientierte Dialogsysteme zu verbessern. Aktuelle Methoden des Vorabtrainings konzentrieren sich jedoch hauptsächlich auf die Verbesserung von Dialogverständnis- und -generierungsaufgaben, während sie die Nutzung von Dialogrichtlinien vernachlässigen. In dieser Arbeit schlagen wir GALAXY vor, ein neues vorabtrainiertes Dialogmodell, das durch semi-supervisiertes Lernen explizit Dialogrichtlinien aus begrenzt annotierten Dialogen und großen Mengen an nicht annotierten Dialogkorpora lernt. Insbesondere führen wir eine Aufgabe zur Vorhersage von Dialogakten für die Richtlinienoptimierung während des Vorabtrainings ein und verwenden einen Konsistenzregularisierungsansatz, um mit Hilfe der nicht annotierten Dialoge die gelernten Repräsentationen zu verfeinern. Zudem implementieren wir ein Gating-Mechanismus, um geeignete nicht annotierte Dialogbeispiele zu gewichten. Empirische Ergebnisse zeigen, dass GALAXY die Leistung task-orientierter Dialogsysteme erheblich steigert und neue Standarteinstellungen auf Benchmark-Datensätzen erreicht: In-Car, MultiWOZ2.0 und MultiWOZ2.1, wobei es ihre end-to-end kombinierten Scores jeweils um 2,5, 5,3 und 5,5 Punkte verbessert. Wir demonstrieren zudem, dass GALAXY unter verschiedenen Ressourcenknappheitsbedingungen eine stärkere Few-Shot-Fähigkeit als bestehende Modelle aufweist.