vor 17 Tagen

MDD-Eval: Selbsttraining auf erweiterten Daten für die mehrdomänenübergreifende Dialogbewertung

Chen Zhang, Luis Fernando D&#39, Haro, Thomas Friedrichs, Haizhou Li

Abstract

Chatbots sind darauf ausgelegt, menschenähnliche Gespräche in verschiedenen Domänen zu führen, beispielsweise allgemeinen Smalltalk, Wissensaustausch oder personenbasierte Gespräche. Um die Qualität solcher conversational agents zu messen, wird von einem Dialogevaluator erwartet, Bewertungen über mehrere Domänen hinweg durchzuführen. Die meisten aktuellen automatischen Dialogbewertungsmetriken (Automatic Dialogue Evaluation Metrics, ADMs) sind jedoch nicht für eine mehrdomänenfähige Bewertung konzipiert. Daher entwickeln wir einen allgemeinen und robusten Rahmen, MDD-Eval, um dieses Problem anzugehen. Konkret trainieren wir zunächst einen Lehrer-Evaluator anhand menschlich annotierter Daten, um eine Bewertungsfähigkeit zu erlangen, die gute von schlechten Dialogantworten innerhalb einer bestimmten Domäne unterscheiden kann. Anschließend wenden wir eine Self-Training-Strategie an, um einen neuen Evaluator mit Lehrer-annotierten, mehrdomänenübergreifenden Daten zu trainieren, wodurch der neue Evaluator in der Lage ist, über mehrere Domänen hinweg generalisierend zu arbeiten. MDD-Eval wird umfassend an sechs verschiedenen Benchmark-Datenbanken für Dialogbewertung evaluiert. Empirische Ergebnisse zeigen, dass der MDD-Eval-Rahmen eine starke Leistung erzielt und im Durchschnitt der Spearman-Korrelationskoeffizienten über alle Bewertungsbenchmarks gegenüber den Stand der Technik um 7 Prozentpunkte absolut verbessert.