HyperAIHyperAI

Command Palette

Search for a command to run...

MDD-Eval: Selbsttraining auf erweiterten Daten für die mehrdomänenübergreifende Dialogbewertung

Chen Zhang Luis Fernando D&#39 Haro Thomas Friedrichs Haizhou Li

Zusammenfassung

Chatbots sind darauf ausgelegt, menschenähnliche Gespräche in verschiedenen Domänen zu führen, beispielsweise allgemeinen Smalltalk, Wissensaustausch oder personenbasierte Gespräche. Um die Qualität solcher conversational agents zu messen, wird von einem Dialogevaluator erwartet, Bewertungen über mehrere Domänen hinweg durchzuführen. Die meisten aktuellen automatischen Dialogbewertungsmetriken (Automatic Dialogue Evaluation Metrics, ADMs) sind jedoch nicht für eine mehrdomänenfähige Bewertung konzipiert. Daher entwickeln wir einen allgemeinen und robusten Rahmen, MDD-Eval, um dieses Problem anzugehen. Konkret trainieren wir zunächst einen Lehrer-Evaluator anhand menschlich annotierter Daten, um eine Bewertungsfähigkeit zu erlangen, die gute von schlechten Dialogantworten innerhalb einer bestimmten Domäne unterscheiden kann. Anschließend wenden wir eine Self-Training-Strategie an, um einen neuen Evaluator mit Lehrer-annotierten, mehrdomänenübergreifenden Daten zu trainieren, wodurch der neue Evaluator in der Lage ist, über mehrere Domänen hinweg generalisierend zu arbeiten. MDD-Eval wird umfassend an sechs verschiedenen Benchmark-Datenbanken für Dialogbewertung evaluiert. Empirische Ergebnisse zeigen, dass der MDD-Eval-Rahmen eine starke Leistung erzielt und im Durchschnitt der Spearman-Korrelationskoeffizienten über alle Bewertungsbenchmarks gegenüber den Stand der Technik um 7 Prozentpunkte absolut verbessert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp