Proxy-Metriken für die Qualität von Open-Domain-Dialogen

Die automatische Bewertung offener Domänen-Dialoge bleibt eine weitgehend ungelöste Herausforderung. Trotz der großen Menge an Forschungsarbeiten in diesem Bereich müssen Dialogqualitäten weiterhin von menschlichen Beurteilern bewertet werden. Folglich ist eine solche Bewertung im großen Maßstab meist kostspielig. In dieser Arbeit wird untersucht, ob ein tiefes Lernmodell, das auf dem General Language Understanding Evaluation (GLUE)-Benchmark trainiert wurde, als Indikator für die Qualität offener Domänen-Dialoge dienen kann. Ziel ist es, die verschiedenen GLUE-Aufgaben als unterschiedliche Perspektiven zur Beurteilung der Dialogqualität zu nutzen, wodurch der Bedarf an zusätzlichen Trainingsdaten oder Antwortbeispielen als Qualitätsreferenzen reduziert wird. Aufgrund dieser Eigenschaft ist das Verfahren in der Lage, verschiedene Qualitätsmetriken abzuleiten und einen komponentenbasierten Gesamtwert zu ermitteln. Wir erreichen statistisch signifikante Korrelationskoeffizienten von bis zu 0,7.