17 天前

去噪远距离监督的开放域问答

{Yankai Lin, Maosong Sun, Zhiyuan Liu, Haozhe Ji}
去噪远距离监督的开放域问答
摘要

远程监督开放域问答(DS-QA)旨在从无标注文本集合中寻找答案。现有的DS-QA模型通常从大规模语料库中检索相关段落,并采用阅读理解技术从最相关的段落中提取答案,却忽略了其他段落中蕴含的丰富信息。此外,远程监督数据不可避免地存在标注错误问题,这些噪声数据会显著降低DS-QA模型的性能。为解决上述问题,我们提出一种新型DS-QA模型,该模型包含一个段落选择器,用于过滤掉噪声段落,以及一个段落阅读器,用于从去噪后的段落中提取正确答案。在真实数据集上的实验结果表明,所提模型能够有效利用噪声数据中的有用信息,在DS-QA任务上显著优于所有基线方法。