6 个月前

摘要

在现实世界中，同时包含表格数据与文本内容的混合数据（例如财务报告）极为普遍。然而，现有研究对这类混合数据上的问答（Question Answering, QA）任务关注甚少。本文从真实的财务报告中提取样本，构建了一个新的大规模混合数据问答数据集，命名为TAT-QA，该数据集同时包含表格与文本信息，且在回答问题时通常需要进行数值推理，如加法、减法、乘法、除法、计数、比较/排序及其组合运算。为进一步应对这一挑战，我们提出了一种新型问答模型——TAGOP。该模型能够对表格和文本内容进行联合推理。具体而言，TAGOP首先通过序列标注技术，从表格中提取相关单元格，并从文本中识别出相关语义片段，以理解其语义含义；随后，利用一组聚合操作符对这些提取结果进行符号化推理，最终得出答案。在TAT-QA数据集上的实验表明，TAGOP模型取得了58.0%的F1分数，相比此前最优基线模型提升了11.1个百分点。然而，该性能与专家人类水平（F1为90.8%）相比仍有显著差距。实验结果充分表明，TAT-QA数据集具有极高的挑战性，可作为训练与评估处理混合数据形式的强健问答模型的重要基准。

源 PDF