2 个月前

铠甲能否导电?一个用于开放书本问答的新数据集

Todor Mihaylov; Peter Clark; Tushar Khot; Ashish Sabharwal
铠甲能否导电?一个用于开放书本问答的新数据集
摘要

我们介绍了一种新型的问题回答数据集——OpenBookQA,该数据集的设计灵感来源于用于评估人类对某一学科理解程度的开卷考试。随问题提供的“开卷”包含1329条小学水平的科学事实。大约6000个问题旨在考察对这些事实的理解及其在新情境中的应用。这需要将一个开卷中的事实(例如,金属导电)与从其他来源获取的广泛常识(例如,盔甲是由金属制成的)结合起来。现有的文档或知识库上的问题回答数据集通常自成一体,主要关注语言理解,而OpenBookQA则更深入地考察了主题本身(在常识背景下的理解)以及表达该主题的语言。人类在OpenBookQA上的表现接近92%,但许多最先进的预训练问答方法却表现得出乎意料地差,甚至不如我们开发的一些简单的神经基线模型。我们的设计用于绕过知识检索瓶颈的实验表明,“开卷”和额外的事实都具有重要价值。我们将其作为一个挑战,即解决这一多跳设置中的检索问题,并缩小与人类表现之间的巨大差距。