
摘要
当多个对话同时发生时,听者必须判断每一句话属于哪一段对话,以便正确理解并作出恰当回应。我们将这一任务称为“解纠缠”(disentanglement)。本文提出一个基于互联网中继聊天(Internet Relay Chat, IRC)的对话语料库,其中各段对话已由人工完成解纠缠标注,并对标注者的一致性进行了评估。据我们所知,这是首个面向互联网聊天场景的此类语料库。我们提出一种基于图论的解纠缠模型,采用此前未被应用于该任务的基于话语的特征。该模型预测的解纠缠结果与人工标注具有高度相关性。
当多个对话同时发生时,听者必须判断每一句话属于哪一段对话,以便正确理解并作出恰当回应。我们将这一任务称为“解纠缠”(disentanglement)。本文提出一个基于互联网中继聊天(Internet Relay Chat, IRC)的对话语料库,其中各段对话已由人工完成解纠缠标注,并对标注者的一致性进行了评估。据我们所知,这是首个面向互联网聊天场景的此类语料库。我们提出一种基于图论的解纠缠模型,采用此前未被应用于该任务的基于话语的特征。该模型预测的解纠缠结果与人工标注具有高度相关性。