OpenDataArena:用于评估后训练数据集价值的公平开放平台
OpenDataArena:用于评估后训练数据集价值的公平开放平台
Abstract
大型语言模型(LLMs)的快速发展依赖于后训练数据集的质量与多样性。然而,一个关键矛盾依然存在:尽管模型本身受到严格基准测试,其训练所依赖的数据却仍处于“黑箱”状态——数据构成不透明、来源不确定,且缺乏系统性评估。这种不透明性严重阻碍了研究的可复现性,并模糊了数据特征与模型行为之间的因果关系。为弥合这一鸿沟,我们提出 OpenDataArena(ODA),一个全面且开放的平台,旨在对后训练数据的内在价值进行系统性评估。ODA 构建了一个由四大核心支柱构成的综合性生态系统:(i)统一的训练-评估流水线,确保在不同模型(如 Llama、Qwen)和多个领域之间实现公平、开放的比较;(ii)多维度评分框架,从数十个不同维度对数据质量进行精细化刻画;(iii)交互式数据谱系探索工具,可可视化数据集的演化路径,深入剖析其组成来源;(iv)完全开源的工具包,支持数据训练、评估与评分,推动数据研究的开放协作。在 ODA 上开展的大量实验覆盖了22个基准测试、横跨多个领域的120余个训练数据集,累计完成超过600次训练运行,处理数据点超过4000万条。实验揭示了若干具有重要意义的发现:我们识别出数据复杂性与任务性能之间的内在权衡关系;通过谱系追踪发现主流基准测试中存在显著的数据冗余;并首次系统性地绘制出不同数据集之间的基因谱系关联图谱。我们已将所有实验结果、工具与配置完全开源,致力于推动高质量数据评估的普惠化与透明化。ODA 不仅旨在扩展排行榜,更致力于推动一场范式转变——从依赖试错的数据筛选,迈向以数据为中心的系统性科学(Data-Centric AI)。这一平台为深入研究数据混合规律、以及基础模型的策略性数据构成提供了坚实基础,开启了数据驱动人工智能研究的新篇章。
一句话总结
上海人工智能实验室与OpenDataLab的OpenDataArena团队推出OpenDataArena(ODA),这是一个透明化平台,通过统一评估流程、跨22项基准的多维评分以及交互式数据谱系追踪,对训练后数据价值进行基准测试,以系统化评估取代不透明的“黑箱”数据集实践,推动大语言模型可复现的数据中心化AI研究。
核心贡献
- 本文针对大语言模型开发中训练后数据构成不透明的关键问题(该问题阻碍可复现性并模糊数据特性与模型性能间的因果关联),提出OpenDataArena(ODA)作为系统化数据基准测试的综合平台。ODA建立统一训练-评估流程,实现跨模型与跨领域的公平比较,已通过覆盖22项基准的120+数据集、600余次训练运行及4000万处理数据点的广泛实验验证。
- 提出新型多维评分框架,在数十个独立维度上剖析数据质量(超越单一指标评估),揭示数据复杂度与任务性能间的内在权衡等非平凡见解,并通过谱系追踪识别流行基准中的冗余。该框架通过细粒度指标与下游结果的相关性分析(涵盖Llama3.1和Qwen系列等模型)实现精细化质量评估。
- 平台引入交互式数据谱系浏览器,用于可视化数据集谱系与来源溯源,同时提供完全开源的训练、评估与评分工具包,支持透明解析数据集组件并实现可复现研究。该生态促成效率分析,绘制“谱系”数据集关系图并识别高价值数据源,为策略性数据筛选提供依据。
引言
作者指出大语言模型(LLM)开发中的关键缺口:尽管模型经过严格基准测试,但塑造其行为的训练后数据集仍处于构成不透明、来源不确定的“黑箱”状态。这种标准化评估的缺失阻碍了可复现性,模糊了数据特性对模型性能的影响机制,并迫使数据筛选陷入高成本的试错过程。先前工作因训练协议与评估指标不一致,未能将数据集质量作为唯一变量进行隔离。
为此,作者推出OpenDataArena(ODA)——一个开源平台,为训练后数据建立公平、可复现的基准测试体系。其核心创新在于统一训练-评估流程:固定基础模型与超参数,实现Llama和Qwen等模型间的“苹果对苹果”式数据集比较。ODA进一步提供跨多维度的数据质量评分框架、用于追踪数据集来源的交互式谱系浏览器,以及经120个数据集、600+训练运行和4000万数据点验证的完全开源工具。该基础设施将数据评估从临时性实验转向数据中心化AI的系统科学。
数据集
- 作者分析了120余个公开可用的SFT训练数据集(总计4000万+样本),主要基于社区影响力(最低下载量/点赞数)、时效性(2023年后)及SFT适用性从Hugging Face获取。关键示例包括OpenThoughts3、LIMO和Tulu3-SFT,单个数据集规模从数千至数十万样本不等。
- 领域分布严重倾斜:数学(34.3%)与代码(30.6%)占主导,通用领域(20.8%)和科学(14.4%)次之。数据集均经过安全审查与格式标准化,混合领域集合被纳入以反映真实复杂性。评估基准涵盖通用领域(如MMLU-PRO)、数学(如OlympiadBenchMath)、代码(如LiveCodeBench)及推理(如GPQA diamond)等22+项测试。
- 本文利用这些数据集构建OpenDataArena平台,通过排行榜评估分析其内在属性与下游性能。未定义显式训练/验证划分,而是整体评估数据集对各领域的影响,并通过谱系分析追踪高性能集合间的依赖关系。
- 处理流程包含自动化数据谱系追踪以映射派生关系与冗余,揭示系统性同质化现象(例如全球范围内70个种子数据集扩展为411个节点与941条边)。关键发现包括基准污染问题(训练数据混入Omni-MATH等测试集)及领域特异性模式(如数学数据集通过迭代优化平均经历5.18次派生步骤)。
方法
OpenDataArena平台设计为端到端系统化工作流,通过标准化、可复现的基准测试评估训练后数据集。其核心是由四大阶段组成的管道,将原始数据集转化为可操作洞见,并由开源工具套件与交互式可视化提供支持。
流程始于数据输入层:数据集被摄入、标准化为统一格式并按领域分类,确保评估一致性。该层作为基础入口点,为下游处理准备异构数据源。如下图所示,此阶段直接衔接数据评估层(平台的计算引擎)。

在数据评估层,各数据集用于在固定训练协议下微调通用预训练基础模型(如Qwen或LLaMA)。所得模型将在多样化下游基准中接受评估,其聚合性能作为数据集内在价值的代理指标。同时,该层执行多维评分流程,分别评估指令(Q)与完整指令-响应对(Q&A),捕捉数据质量的不同维度。此评分系统融合三类方法:基于模型的评估(量化复杂度与推理深度)、LLM-as-judge(主观质量属性如连贯性与清晰度)、启发式规则(客观指标如token长度或响应结构)。
评估阶段的输出将传递至数据分析层,该层综合性能指标与评分结果,支持跨模型比较、领域特定效能评估及数据家族关系探索。通过关联数据集属性与模型行为,该层提供深度诊断洞见,助力研究人员识别数据效用与冗余的模式。
最终,数据可视化层将分析结果渲染为交互式排行榜、对比图表与评分可视化界面。平台交付物包括:用于直观性能排序的公开排行榜、详述15+项数据集内在属性的多维评分框架、支持来源追踪的交互式数据谱系平台,以及确保可复现性与社区可扩展性的完全开源评估工具包。
参考框架图可了解各组件如何互联形成统一评估生态。

实验
- 基于Llama3.1-8B、Qwen2.5-7B和Qwen3-8B模型的600+次标准化训练运行证实:数据集质量是性能差异的唯一驱动因素。
- Qwen3在所有领域均取得最高中位数分数(例如:数学领域在2025Q3数据集上达~56分),表明更强基础模型提供更高性能基线及对数据噪声的鲁棒性。
- 数学数据集因合成思维链(Chain-of-Thought)技术推动,分数从2023Q2的
35分升至2025Q3的56分;而代码领域因质量不稳定仍波动显著。 - 响应长度与数学性能呈0.81斯皮尔曼相关性;详尽推理(如OpenThought3)显著提升学习效果,但代码领域需简洁性(长度负相关:-0.29)。
- 高密度容量策略(中等规模精选数据集)优于极端高效方案;例如AM-Thinking在数学/代码领域表现最佳,而LIM0等微型数据集导致Llama3.1在数学领域性能下降。
- 数据集排名显示数学领域高度一致(Qwen2.5/Qwen3间0.902秩相关性),但通用领域出现饱和(负相关:-0.323),表明专业化领域更受益于定制化数据。
- 代码领域展现独特评估标准:思维概率等指标呈正相关(0.54),而数学领域为负相关(-0.69),需领域特定评估框架。
作者通过斯皮尔曼相关性测量Qwen2.5与Qwen3模型间的数据集排名一致性,发现数学数据集呈现极高对齐度(0.902),表明其价值在模型代际间稳定;相反,通用数据集呈负相关(-0.323),暗示更强模型在预训练中已吸收通用指令模式,导致边际效益递减。科学与代码领域呈弱正相关,反映基础模型演进过程中数据集价值的部分但不稳定迁移。

作者通过跨多基础模型的标准化微调与评估流程,在通用、数学、代码及科学领域对数据集进行性能排名。结果显示Qwen3持续获得全球最高排名,AM-Thinking-Math与MegaScience分别在数学与科学领域领先,而Code-Feedback和Raiden-DeepSeek-R1等代码数据集在Qwen3上表现优异。数据集排名在数学领域高度一致(斯皮尔曼系数0.902),但通用领域呈负相关(-0.323),表明Qwen3等先进模型因预训练饱和而较少受益于通用指令数据。

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.