5 个月前

Jie Zhang Changzai Pan Kaiwen Wei Sishi Xiong Yu Zhao Xiangyu Li Jiaxin Peng Xiaoyan Gu Jian Yang Wenhan Chang

摘要

大量研究已致力于探索大语言模型（LLMs）在表格推理方面的潜力。然而，将表格信息转化为报告这一核心任务，仍是工业应用中面临的重要挑战。该任务主要受到两个关键问题的制约：其一，表格的复杂性和多样性导致推理结果难以达到理想水平；其二，现有表格基准数据集缺乏充分评估该任务实际应用价值的能力。为弥补这一空白，我们提出了“表格到报告”（table-to-report, T2R）任务，并构建了一个双语基准数据集——T2R-bench，该任务的核心信息流即从表格传递至报告。该基准包含457个来自真实工业场景的表格，覆盖19个不同行业领域，涵盖4种类型的工业表格。此外，我们提出了一套评估标准，以公平、客观地衡量报告生成的质量。在25个广泛应用的大语言模型上的实验结果表明，即便是最先进的模型（如Deepseek-R1），在T2R-bench上的综合得分也仅为62.71，表明当前大语言模型在该任务上仍有显著提升空间。源代码与数据集将在论文被接收后公开。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

5 个月前

Jie Zhang Changzai Pan Kaiwen Wei Sishi Xiong Yu Zhao Xiangyu Li Jiaxin Peng Xiaoyan Gu Jian Yang Wenhan Chang

摘要

大量研究已致力于探索大语言模型（LLMs）在表格推理方面的潜力。然而，将表格信息转化为报告这一核心任务，仍是工业应用中面临的重要挑战。该任务主要受到两个关键问题的制约：其一，表格的复杂性和多样性导致推理结果难以达到理想水平；其二，现有表格基准数据集缺乏充分评估该任务实际应用价值的能力。为弥补这一空白，我们提出了“表格到报告”（table-to-report, T2R）任务，并构建了一个双语基准数据集——T2R-bench，该任务的核心信息流即从表格传递至报告。该基准包含457个来自真实工业场景的表格，覆盖19个不同行业领域，涵盖4种类型的工业表格。此外，我们提出了一套评估标准，以公平、客观地衡量报告生成的质量。在25个广泛应用的大语言模型上的实验结果表明，即便是最先进的模型（如Deepseek-R1），在T2R-bench上的综合得分也仅为62.71，表明当前大语言模型在该任务上仍有显著提升空间。源代码与数据集将在论文被接收后公开。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供