17 天前

HybridQA:面向表格与文本数据的多跳问答数据集

Wenhu Chen, Hanwen Zha, Zhiyu Chen, Wenhan Xiong, Hong Wang, William Wang
HybridQA:面向表格与文本数据的多跳问答数据集
摘要

现有的问答数据集主要聚焦于处理同质化信息,仅基于文本或知识库(KB)/表格信息中的一种。然而,人类知识分布于多种异构形式之中,仅依赖单一信息形式可能导致严重的覆盖问题。为弥补这一空白,我们提出了 HybridQA(https://github.com/wenhuchen/HybridQA),一个大规模的问答数据集,要求模型在异构信息上进行推理。每个问题均与一个维基百科表格以及多个与表格中实体相关联的自由文本语料库对齐。这些问题的设计旨在综合运用表格信息与文本信息,即缺少任一形式的信息均无法回答问题。我们测试了三种不同模型:1)仅使用表格信息的模型;2)仅使用文本信息的模型;3)融合异构信息以寻找答案的混合模型。实验结果表明,两种基线模型的 EM(Exact Match)得分均低于 20%,而混合模型的 EM 得分可达到 40% 以上。这一显著差距表明,在 HybridQA 中整合异构信息具有必要性。然而,混合模型的表现仍远低于人类水平。因此,HybridQA 可作为研究异构信息问答任务的一个极具挑战性的基准。

HybridQA:面向表格与文本数据的多跳问答数据集 | 最新论文 | HyperAI超神经