17 天前

USR:一种无监督且无需参考的对话生成评估指标

Shikib Mehri, Maxine Eskenazi
USR:一种无监督且无需参考的对话生成评估指标
摘要

对话任务缺乏有意义的自动评估指标,已成为开放域对话研究的主要瓶颈。现有标准的语言生成评估指标在对话模型评估中被证明效果不佳。为此,本文提出一种无参考、无监督的对话评估指标——USR(UnSupervised and Reference-free evaluation metric for dialog)。USR是一种无需参考文本的评估方法,通过训练无监督模型来衡量对话的多种理想特性。实验结果表明,USR在Topical-Chat数据集上与人工评价具有显著相关性(回合级相关系数为0.42,系统级为1.0),在PersonaChat数据集上同样表现优异(回合级相关系数为0.48,系统级为1.0)。此外,USR还能为对话的多项理想属性提供可解释的量化指标。

USR:一种无监督且无需参考的对话生成评估指标 | 最新论文 | HyperAI超神经