Command Palette

Search for a command to run...

LoongBench 다중 도메인 추론 벤치마크 데이터 세트

날짜

2달 전

기관

카멜-AI

논문 URL

2509.03059

라이선스

MIT

Discord 커뮤니티 참여

*이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.

LoongBench는 CAMEL-AI 팀이 2025년에 발표한 다중 도메인 추론 평가 데이터 세트입니다. 관련 논문 결과는 다음과 같습니다.Loong: 검증 도구를 통해 대규모로 긴 사고 사슬을 합성합니다."는 LLM에 다중 도메인, 검증 가능한 교육 및 평가 리소스를 제공하는 것을 목표로 합니다.

이 데이터셋은 고급 수학, 고급 물리학, 화학, 계산생물학, 프로그래밍 등 12개의 추론 집약 분야를 포괄하는 자연어로 표현된 8,729개의 질문을 포함합니다. 각 샘플에는 실행 가능한 코드와 검증된 답변뿐만 아니라 문제 설명, 상세 추론 과정, 최종 해답, 그리고 메타데이터(질문 ID 및 도메인 정보)와 도메인 레이블이 포함되어 있습니다. 이 데이터셋은 교차 도메인 추론 능력의 훈련 및 벤치마킹에 적합합니다.

데이터 세트 구성

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
LoongBench 다중 도메인 추론 벤치마크 데이터 세트 | 데이터셋 | HyperAI초신경