
摘要
在开放域问答(Open Question Answering, QA)任务中,答案通过检索并分析可能包含答案信息的文档来生成。大多数现有的开放域问答系统仅关注从非结构化文本中检索信息。本文首次将开放域问答扩展至表格数据与文本数据的联合处理,并提出一个全新的大规模数据集——开放表格与文本问答数据集(Open Table-and-Text Question Answering, OTT-QA),用于评估该任务上的性能表现。OTT-QA中的大多数问题需要在表格数据与非结构化文本之间进行多跳推理,且回答问题所需的证据可能以多种方式分布在两种不同类型的输入中,这使得证据检索极具挑战性——我们提出的基线模型采用迭代检索器结合基于BERT的阅读器,其精确匹配(Exact Match)得分低于10%。为应对这一挑战,我们提出两种新颖的技术来提升证据的检索与聚合能力。第一项技术采用“早期融合”(early fusion)策略,将多个高度相关的表格单元与文本片段整合为一个融合块,从而为检索器提供更丰富的上下文信息。第二项技术引入一种跨块阅读器(cross-block reader),利用全局-局部稀疏注意力机制建模多个检索到的证据块之间的跨依赖关系。将这两种技术相结合后,模型性能显著提升,精确匹配得分达到27%以上。