Command Palette
Search for a command to run...

摘要
大量研究已致力于探索大语言模型(LLMs)在表格推理方面的潜力。然而,将表格信息转化为报告这一核心任务,仍是工业应用中面临的重要挑战。该任务主要受到两个关键问题的制约:其一,表格的复杂性和多样性导致推理结果难以达到理想水平;其二,现有表格基准数据集缺乏充分评估该任务实际应用价值的能力。为弥补这一空白,我们提出了“表格到报告”(table-to-report, T2R)任务,并构建了一个双语基准数据集——T2R-bench,该任务的核心信息流即从表格传递至报告。该基准包含457个来自真实工业场景的表格,覆盖19个不同行业领域,涵盖4种类型的工业表格。此外,我们提出了一套评估标准,以公平、客观地衡量报告生成的质量。在25个广泛应用的大语言模型上的实验结果表明,即便是最先进的模型(如Deepseek-R1),在T2R-bench上的综合得分也仅为62.71,表明当前大语言模型在该任务上仍有显著提升空间。源代码与数据集将在论文被接收后公开。