Command Palette
Search for a command to run...
LoongBench 다중 도메인 추론 벤치마크 데이터 세트
*이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.
LoongBench는 CAMEL-AI 팀이 2025년에 발표한 다중 도메인 추론 평가 데이터 세트입니다. 관련 논문 결과는 다음과 같습니다.Loong: 검증 도구를 통해 대규모로 긴 사고 사슬을 합성합니다."는 LLM에 다중 도메인, 검증 가능한 교육 및 평가 리소스를 제공하는 것을 목표로 합니다.
이 데이터셋은 고급 수학, 고급 물리학, 화학, 계산생물학, 프로그래밍 등 12개의 추론 집약 분야를 포괄하는 자연어로 표현된 8,729개의 질문을 포함합니다. 각 샘플에는 실행 가능한 코드와 검증된 답변뿐만 아니라 문제 설명, 상세 추론 과정, 최종 해답, 그리고 메타데이터(질문 ID 및 도메인 정보)와 도메인 레이블이 포함되어 있습니다. 이 데이터셋은 교차 도메인 추론 능력의 훈련 및 벤치마킹에 적합합니다.
