
摘要
在表格与文本开放域问答任务中,检索系统需从表格和文本中检索出与问题相关的证据以生成答案。以往针对表格与文本开放域问答的研究面临两个常见挑战:其一,其检索模型在训练过程中易受训练数据集中假阳性标签的影响;其二,对于需要跨表格进行推理的问题,现有方法往往难以提供恰当的证据。为应对上述问题,我们提出了一种去噪表格-文本检索器(Denoised Table-Text Retriever, DoTTeR)。该方法首先通过一个假阳性检测模型,对训练样本进行评估并筛选出问题相关性得分较低的实例,从而构建一个包含更少假阳性标签的去噪训练数据集;随后,我们将表格级别的排序信息引入检索器,以辅助识别需要跨表格推理的问题所需的相关证据。为有效编码此类排序信息,我们对一个具备排序感知能力的列编码器进行微调,使其能够识别列中的最小值与最大值。实验结果表明,DoTTeR在检索召回率以及下游问答任务上均显著优于多个强基线模型。相关代码已开源,地址为:https://github.com/deokhk/DoTTeR。