Command Palette

Search for a command to run...

2 个月前

T2R-bench:一个从真实工业表格生成文章级报告的基准测试

T2R-bench:一个从真实工业表格生成文章级报告的基准测试

摘要

大量研究已致力于探索大语言模型(LLMs)在表格推理方面的潜力。然而,将表格信息转化为报告这一核心任务,仍是工业应用中面临的重要挑战。该任务主要受到两个关键问题的制约:其一,表格的复杂性和多样性导致推理结果难以达到理想水平;其二,现有表格基准数据集缺乏充分评估该任务实际应用价值的能力。为弥补这一空白,我们提出了“表格到报告”(table-to-report, T2R)任务,并构建了一个双语基准数据集——T2R-bench,该任务的核心信息流即从表格传递至报告。该基准包含457个来自真实工业场景的表格,覆盖19个不同行业领域,涵盖4种类型的工业表格。此外,我们提出了一套评估标准,以公平、客观地衡量报告生成的质量。在25个广泛应用的大语言模型上的实验结果表明,即便是最先进的模型(如Deepseek-R1),在T2R-bench上的综合得分也仅为62.71,表明当前大语言模型在该任务上仍有显著提升空间。源代码与数据集将在论文被接收后公开。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
T2R-bench:一个从真实工业表格生成文章级报告的基准测试 | 论文 | HyperAI超神经