17 天前

开放域对话质量的代理指标

{Ricardo Usbeck, Jens Lehmann, Rostislav Nedelchev}
开放域对话质量的代理指标
摘要

开放域对话的自动评估仍是尚未完全解决的挑战。尽管该领域已有大量研究,但对话质量的评估仍主要依赖人工评判,导致大规模评估成本高昂。本文研究利用在通用语言理解评估(GLUE)基准上训练的深度学习模型,作为开放域对话质量的指示器。其核心思想是将GLUE中的各项任务视为评估对话质量的不同视角,从而减少对额外训练数据或作为质量参考的响应样本的依赖。由于该方法具备这一特性,能够推断出多种质量指标,并构建基于组件的综合评分。实验结果表明,该方法在统计上实现了高达0.7的相关系数。