日期

10 个月前

数据集组织

论文 URL

2509.03059

许可证

MIT

标签

推理

基准

LoongBench 是由 CAMEL-AI 团队于 2025 年发布的一个多领域推理评测数据集，相关论文成果为「Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers」，旨在为 LLM 提供多领域、可验证的训练与评测资源。该数据集包含 8,729 条以自然语言问题形式表达、覆盖高等数学、高等物理学、化学、计算生物学、编程等 12 个推理密集型领域，每条样本不仅附带可执行代码和经过验证的答案，还包括问题陈述、详细推理过程、最终解答，以及元数据（问题 ID 与领域信息）和领域标签，适用于跨领域推理能力的训练与基准测试。