16 天前

问题究竟在询问什么?MFAE:基于多融合提问强调的重复问题识别

{Tong Mo, Weiping Li, Bo Wu, Qifei Zhou, Rong Zhang}
摘要

重复问题识别(Duplicate Question Identification, DQI)能够显著提升大规模社区问答系统及自动问答系统的处理效率与准确性。DQI任务的核心目标是判断一对问题在语义上是否等价。然而,如何准确区分配对问题中的同义词或同形异义词,仍是当前面临的重要挑战。以往多数研究主要关注词汇级或短语级的语义差异,而本文首次提出将问题的“提问重点”(asking emphasis)作为DQI中的关键因素。提问重点在连接两个问题的语义等价性方面起到桥梁作用。本文提出一种基于多融合提问重点(Multi-fusion Asking Emphasis, MFAE)的注意力模型,用于提升DQI性能。首先,利用BERT获取动态预训练词向量;随后,通过计算跨注意力(inter-attention)与自注意力(self-attention)的加权和,分别提取问题间的提问重点(inter-asking emphasis)与问题内部的提问重点(intra-asking emphasis),其核心思想是:一个词与其他词的交互越频繁,其重要性越高。最后,采用八种组合方式生成多融合提问重点与多融合词表示,以增强模型对语义等价性的捕捉能力。实验结果表明,所提模型在Quora Question Pairs和CQADupStack两个公开数据集上均达到了当前最优性能。此外,该模型在SNLI与MultiNLI自然语言推理数据集上也表现出良好的泛化能力,能够有效提升相关任务的性能。代码已开源,地址为:https://github.com/rzhangpku/MFAE。