
摘要
对话任务缺乏有意义的自动评估指标,已成为开放域对话研究的主要瓶颈。现有标准的语言生成评估指标在对话模型评估中被证明效果不佳。为此,本文提出一种无参考、无监督的对话评估指标——USR(UnSupervised and Reference-free evaluation metric for dialog)。USR是一种无需参考文本的评估方法,通过训练无监督模型来衡量对话的多种理想特性。实验结果表明,USR在Topical-Chat数据集上与人工评价具有显著相关性(回合级相关系数为0.42,系统级为1.0),在PersonaChat数据集上同样表现优异(回合级相关系数为0.48,系统级为1.0)。此外,USR还能为对话的多项理想属性提供可解释的量化指标。