11 天前
击败AI:面向阅读理解的对抗性人类标注研究
Max Bartolo, Alastair Roberts, Johannes Welbl, Sebastian Riedel, Pontus Stenetorp

摘要
注释方法的创新已成为推动阅读理解(Reading Comprehension, RC)数据集与模型发展的关键动力。近年来,一种新兴趋势是将模型纳入注释过程:人类以对抗性方式生成问题,使得当前模型无法正确回答。本文系统研究了这一注释方法,并在三种不同场景下加以应用,通过逐步增强“模型在环”(model-in-the-loop)的强度,共收集了总计36,000个样本。这一设计使我们能够深入探讨若干关键问题,包括对抗效应的可复现性、不同模型强度下收集数据的迁移能力,以及在无模型参与情况下数据的泛化表现。研究发现,基于对抗性收集样本进行训练,能够实现对非对抗性数据集的强泛化能力,但随着“模型在环”强度的持续提升,模型性能呈现逐步下降趋势。此外,我们还发现,即使使用较强模型进行训练,仍可从由显著较弱模型参与注释所生成的数据集中有效学习。例如,当使用BiDAF模型作为注释环中的参与者时,RoBERTa模型在原本无法回答的问题上仍能达到39.9的F1分数,仅略低于使用RoBERTa自身作为注释模型所收集数据训练时的表现(41.0 F1)。这一结果表明,即便注释过程中所用模型能力有限,其生成的数据仍具备较高的训练价值,且对后续模型的性能提升具有显著贡献。