17 天前

CABINET:基于内容相关性的噪声消除用于表格问答

Sohan Patnaik, Heril Changwal, Milan Aggarwal, Sumit Bhatia, Yaman Kumar, Balaji Krishnamurthy
CABINET:基于内容相关性的噪声消除用于表格问答
摘要

大型语言模型(LLMs)在表格理解方面的能力已通过表格问答(Table Question Answering, QA)任务得到了广泛研究。通常情况下,仅表格中的一小部分信息与特定问题相关,而其余部分则构成噪声,成为干扰信息,导致LLM因对噪声敏感而表现不佳。为缓解这一问题,我们提出CABINET(基于内容相关性的噪声抑制框架,Content RelevAnce-Based NoIse ReductioN for TablE QuesTion-Answering),旨在通过抑制无关信息,使LLM能够聚焦于与问题相关的表格内容。CABINET框架包含一个无监督相关性评分模块(Unsupervised Relevance Scorer, URS),该模块与问答LLM(QA LLM)联合微调,能够在将表格输入QA LLM之前,根据其与输入问题的相关性对表格内容进行加权。为进一步提升相关性评分的准确性,CABINET引入了一个弱监督模块,该模块生成描述与问题相关的行和列的解析语句,并高亮对应表格单元格中的内容,从而增强模型对关键信息的识别能力。实验结果表明,CABINET显著优于多种表格专用LLM基线模型,以及基于GPT-3的上下文学习方法,在不同规模的表格上均表现出更强的鲁棒性,并在WikiTQ、FeTaQA和WikiSQL三个主流数据集上取得了新的最先进(SoTA)性能。相关代码与数据集已开源,地址为:https://github.com/Sohanpatnaik106/CABINET_QA。