9 天前
通过恢复包含答案的句子来学习生成问题
{Jaegul Choo, Haejun Lee, Sai Chetan Chinthakindi, Akhil Kedia, Seohyun Back}

摘要
为了训练基于机器阅读理解(Machine Reading Comprehension, MRC)的问答模型,需要投入大量人力来构建标注数据集,这些数据集由上下文中的问题及其对应答案组成。为缓解这一数据标注瓶颈,近年来的研究聚焦于通过训练一个额外的生成模型,从给定的上下文和标注(或生成)的答案中自动生成问题,从而实现训练数据的扩充。基于这一研究方向,本文提出一种新颖的预训练方法,该方法通过恢复包含答案的句子来学习生成语境丰富的问题。本方法包含两个创新性组件:(1)从给定文档中动态确定K个答案;(2)在生成包含答案句子的任务上对问题生成器进行预训练。我们在生成问题的质量以及使用本方法合成生成的数据进行微调后MRC模型的准确率两个方面,对所提方法与现有方法进行了对比评估。实验结果表明,该方法能够持续提升现有模型(如UniLM)的问题生成能力,在MS MARCO和NewsQA数据集上达到当前最优性能,并在SQuAD数据集上取得与现有最先进方法相当的结果。此外,我们还证明,由本方法合成生成的数据在无需对现有MRC模型进行任何修改的情况下,能够显著提升多种下游MRC任务的性能,涵盖SQuAD-v1.1、v2.0以及KorQuAD等多个数据集。进一步实验表明,当训练数据量有限时,本方法在预训练阶段和下游MRC任务中的表现尤为突出,展现出强大的数据效率优势。