2 个月前

两级监督对比学习在多轮对话中的响应选择

Wentao Zhang; Shuang Xu; Haoran Huang
两级监督对比学习在多轮对话中的响应选择
摘要

在多轮对话中,从多个候选回复中选择一个合适的回复是基于检索的对话系统的关键问题。现有研究将该任务形式化为对话 utterances 与候选回复之间的匹配,并在模型学习过程中使用交叉熵损失。本文通过使用监督对比损失将对比学习应用于这一问题。通过这种方式,可以在嵌入空间中更远地分离正例和负例的表示,从而提高匹配性能。我们进一步开发了一种新的监督对比学习方法,称为两级监督对比学习(two-level supervised contrastive learning),并将其应用于多轮对话中的回复选择任务。我们的方法利用了两种技术:句子标记洗牌(sentence token shuffling, STS)和句子重排序(sentence re-ordering, SR)来进行监督对比学习。在三个基准数据集上的实验结果表明,所提出的方法显著优于对比学习基线方法和当前最先进的方法。注释:- “utterances” 在对话系统中通常翻译为“话语”或“发言”,但为了保持与原文的一致性,这里直接使用“utterances”。- “cross-entropy loss” 翻译为“交叉熵损失”。- “supervised contrastive loss” 翻译为“监督对比损失”。- “embedding space” 翻译为“嵌入空间”。