HyperAI

* 이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.

Omni-MATH는 베이징 대학과 알리바바가 공동으로 만든 올림피아드 수준의 수학적 추론 벤치마크 데이터 세트로, 올림피아드 수준의 수학 문제에 대한 대규모 언어 모델(LLM)의 성능을 평가하는 것을 목표로 합니다. 관련 논문 결과는 다음과 같습니다.Omni-MATH: 대규모 언어 모델을 위한 범용 올림피아드 수준 수학 벤치마크".

이 데이터 세트에는 33개 하위 분야와 10개 이상의 다양한 난이도 수준을 포괄하는 4,428개의 엄격하게 수동으로 주석이 달린 대회 수준의 수학 문제가 포함되어 있으며, 올림피아드 준비 수준부터 IMO(국제 수학 올림피아드), IMC(국제 수학 경시대회), 퍼트넘 수학 경시대회와 같은 최고의 올림피아드 수학 경시대회까지 포함됩니다.

Omni-MATH의 제작 과정에는 글로벌 수학 경연대회에서 데이터를 수집하고, 이를 인간이 주석을 달아 검증하는 과정이 포함되어 데이터의 높은 품질과 다양성을 보장합니다. 연구팀은 데이터 세트를 구축하는 동안 GPT-4o를 사용하여 질문을 분류하고 이를 다양한 수학 분야로 나누어 다양한 수학 분야에서 모델의 성능을 평가했습니다.

Omni-MATH 수학적 추론 벤치마크 데이터 세트

* 이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.

AI로 AI 구축

Hyper Newsletters

Command Palette

Omni-MATH 수학적 추론 벤치마크 데이터 세트

* 이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.

AI로 AI 구축

Hyper Newsletters