17 天前

无监督问答中的问题-答案对收集与精炼

Zhongli Li, Wenhui Wang, Li Dong, Furu Wei, Ke Xu
无监督问答中的问题-答案对收集与精炼
摘要

问答(Question Answering, QA)任务近年来取得了显著进展,这得益于大规模数据集的可用性以及神经网络模型的有效性。近期的研究工作尝试将这些成果推广至标注数据极少甚至完全缺失的场景。在本研究中,我们提出了两种方法以提升无监督问答性能:首先,我们从维基百科中自动挖掘在词汇和句法层面具有多样性的问答对,构建了一个大规模的问答语料库(命名为RefQA);其次,我们利用问答模型自身来提取更准确的答案,并通过迭代方式对RefQA数据集进行持续优化与精炼。我们在SQuAD 1.1和NewsQA数据集上进行了实验,仅通过微调BERT模型,且无需任何人工标注数据。实验结果表明,我们的方法在无监督设置下显著优于以往的无监督方法,并在性能上可与早期的监督学习模型相媲美。此外,我们还验证了该方法在少样本学习(few-shot learning)场景下的有效性。