17 天前

机器阅读理解的协作式自训练

Hongyin Luo, Shang-Wen Li, Mingye Gao, Seunghak Yu, James Glass
机器阅读理解的协作式自训练
摘要

预训练语言模型显著提升了下游语言理解任务的性能,包括抽取式问答任务,主要得益于其提供的高质量上下文相关词向量。然而,训练问答模型仍需大量特定领域的标注数据。为此,本文提出一种协作式自训练框架RGX,用于自动生成更具挑战性的问题-答案对,以进一步提升模型性能。RGX基于掩码答案提取任务构建,其交互式学习环境包含答案实体识别器(Answer Entity Recognizer)、问题生成器(Question Generator)和答案提取器(Answer Extractor)。给定一个包含掩码实体的文本段落,生成器会围绕该实体生成相应问题,而提取器则在生成问题与原始文本的共同作用下,被训练以准确提取被掩码的实体。该框架无需任何标注数据,即可在任意文本语料库上训练问题生成与问答模型。实验结果表明,RGX在标准问答基准测试中超越了当前最先进的预训练语言模型及迁移学习方法,在给定模型规模和迁移学习设置下,取得了新的最先进(SOTA)性能。