HyperAI超神经

Omni-MATH 是由北京大学和阿里巴巴创建的一个奥林匹克级别数学推理基准数据集，旨在评估大语言模型 (LLMs) 在奥林匹克级别数学问题上的表现。相关论文成果为「Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models」。

这个数据集包含了 4,428 个经过严格人工标注的竞赛级数学问题，涵盖了 33 个子领域和超过 10 个不同的难度级别，从奥林匹克预备级别到顶级奥林匹克数学竞赛，如 IMO（国际数学奥林匹克）、 IMC（国际数学竞赛）和普特南数学竞赛等。

Omni-MATH 的创建过程包括从全球数学竞赛中收集数据，并通过人工注释进行验证，确保数据的高质量和多样性。数据集的构建过程中，研究团队使用了 GPT-4o 对问题进行分类，将问题分为不同的数学领域，以评估模型在不同数学领域的表现。

Omni-MATH 数学推理基准数据集