
摘要
半结构化表格在现实世界应用中广泛使用(例如财务报告、医疗记录、交易订单等),通常具有灵活且复杂的布局(如层级化表头和单元格合并)。这类表格通常依赖人工分析师解读表格结构并回答相关的自然语言问题,这一过程成本高昂且效率低下。为实现自动化处理,现有方法面临诸多挑战:首先,诸如NL2SQL的方法需将半结构化表格转换为结构化格式,这一过程常导致大量信息丢失;其次,诸如NL2Code和多模态大语言模型问答(LLM QA)的方法难以理解半结构化表格的复杂布局,无法准确回答相应问题。为此,我们提出ST-Raptor——一种基于树结构的框架,用于利用大语言模型实现半结构化表格的问答任务。首先,我们引入分层正交树(Hierarchical Orthogonal Tree, HO-Tree),这是一种能够捕捉复杂半结构化表格布局的结构化建模方法,并设计了一种高效的树构建算法。其次,我们定义了一组基础的树操作,用以引导大语言模型执行常见的问答任务。当接收到用户问题时,ST-Raptor将其分解为更简单的子问题,生成相应的树操作流水线,并通过操作与表格的对齐机制,实现精准的流水线执行。第三,我们引入两阶段验证机制:前向验证用于检查执行步骤的正确性,后向验证则通过从预测答案重构查询来评估答案的可靠性。为评估模型性能,我们构建了SSTQA数据集,包含102个真实世界半结构化表格上的764个问题。实验结果表明,ST-Raptor在答案准确率上相较九种基线方法最高提升达20%。代码已开源,地址见:https://github.com/xxx/st-raptor(注:此处为示例链接,实际请替换为项目真实地址)。