
摘要
最近,研究发现使用现成的信息检索(IR)技术进行段落检索与BERT阅读器相结合的方法在直接基于维基百科的问题回答中非常有效,相比之前的技术在标准基准数据集上取得了显著的改进。本文提出了一种利用远监督的数据增强技术,该技术同时利用正例和负例。我们采用分阶段的方法对BERT进行微调,从与测试数据“最远”的数据开始,逐步过渡到与测试数据“最近”的数据。实验结果表明,该方法在英语问题回答数据集上的效果比以往方法有大幅提高,并且我们在两个最近的中文问题回答数据集上建立了新的基准。
最近,研究发现使用现成的信息检索(IR)技术进行段落检索与BERT阅读器相结合的方法在直接基于维基百科的问题回答中非常有效,相比之前的技术在标准基准数据集上取得了显著的改进。本文提出了一种利用远监督的数据增强技术,该技术同时利用正例和负例。我们采用分阶段的方法对BERT进行微调,从与测试数据“最远”的数据开始,逐步过渡到与测试数据“最近”的数据。实验结果表明,该方法在英语问题回答数据集上的效果比以往方法有大幅提高,并且我们在两个最近的中文问题回答数据集上建立了新的基准。