17 天前

MDD-Eval:基于增强数据的自训练多领域对话评估

Chen Zhang, Luis Fernando D&#39, Haro, Thomas Friedrichs, Haizhou Li
MDD-Eval:基于增强数据的自训练多领域对话评估
摘要

聊天机器人旨在跨多个领域实现类人的对话交互,涵盖日常闲聊、知识问答以及基于角色设定的对话等场景。为了评估此类对话代理的质量,对话评估系统也应具备跨领域评估的能力。然而,目前大多数先进的自动对话评估指标(Automatic Dialogue Evaluation Metrics, ADMs)并未针对多领域评估进行设计。为此,我们提出了一种通用且鲁棒的评估框架——MDD-Eval,以解决该问题。具体而言,我们首先利用人工标注数据训练一个教师评估器(teacher evaluator),使其具备在特定领域中区分优质对话回复与劣质回复的评分能力;随后,采用自训练策略,基于教师评估器标注的多领域数据,训练一个新的评估器,从而提升其在多个领域间的泛化能力。MDD-Eval 在六个对话评估基准上进行了广泛评估。实验结果表明,该框架在所有评估基准上的平均斯皮尔曼相关系数(mean Spearman correlation scores)方面,相较当前最先进的ADM方法实现了7个百分点的绝对性能提升,展现出强大的评估能力。

MDD-Eval:基于增强数据的自训练多领域对话评估 | 最新论文 | HyperAI超神经