vor 2 Monaten

GALAXY: Ein generatives vorab trainiertes Modell für taskorientierte Dialoge mit semi-überwachtem Lernen und expliziter Policy-Injektion

Wanwei He; Yinpei Dai; Yinhe Zheng; Yuchuan Wu; Zheng Cao; Dermot Liu; Peng Jiang; Min Yang; Fei Huang; Luo Si; Jian Sun; Yongbin Li

Details der Forschungsarbeit anzeigen

GALAXY: Ein generatives vorab trainiertes Modell für taskorientierte Dialoge mit semi-überwachtem Lernen und expliziter Policy-Injektion

Abstract

Vorabtrainierte Modelle haben sich als äußerst effektiv erwiesen, um task-orientierte Dialogsysteme zu verbessern. Aktuelle Methoden des Vorabtrainings konzentrieren sich jedoch hauptsächlich auf die Verbesserung von Dialogverständnis- und -generierungsaufgaben, während sie die Nutzung von Dialogrichtlinien vernachlässigen. In dieser Arbeit schlagen wir GALAXY vor, ein neues vorabtrainiertes Dialogmodell, das durch semi-supervisiertes Lernen explizit Dialogrichtlinien aus begrenzt annotierten Dialogen und großen Mengen an nicht annotierten Dialogkorpora lernt. Insbesondere führen wir eine Aufgabe zur Vorhersage von Dialogakten für die Richtlinienoptimierung während des Vorabtrainings ein und verwenden einen Konsistenzregularisierungsansatz, um mit Hilfe der nicht annotierten Dialoge die gelernten Repräsentationen zu verfeinern. Zudem implementieren wir ein Gating-Mechanismus, um geeignete nicht annotierte Dialogbeispiele zu gewichten. Empirische Ergebnisse zeigen, dass GALAXY die Leistung task-orientierter Dialogsysteme erheblich steigert und neue Standarteinstellungen auf Benchmark-Datensätzen erreicht: In-Car, MultiWOZ2.0 und MultiWOZ2.1, wobei es ihre end-to-end kombinierten Scores jeweils um 2,5, 5,3 und 5,5 Punkte verbessert. Wir demonstrieren zudem, dass GALAXY unter verschiedenen Ressourcenknappheitsbedingungen eine stärkere Few-Shot-Fähigkeit als bestehende Modelle aufweist.