날짜

7달 전

조직

Paper URL

7a783933efcc

라이선스

Apache 2.0

태그

Reasoning

기준

FrontierScience는 OpenAI에서 2025년에 공개한 추론 및 과학 연구 과제 평가를 위한 데이터셋입니다. 관련 논문으로는 다음과 같은 것들이 있습니다... 프론티어사이언스: 인공지능의 전문가 수준 과학 작업 수행 능력 평가목표는 전문가 수준의 과학적 추론 및 연구 하위 작업에서 대규모 모델의 역량을 체계적으로 평가하는 것입니다. 본 데이터셋은 "전문가 제작 + 2단계 과제 구조 + 자동 채점 메커니즘"이라는 설계 메커니즘을 채택하고 있으며, 폐쇄형 정밀 추론과 개방형 과학 연구 추론이라는 두 가지 유형의 능력에 해당하는 두 개의 하위 집합으로 나뉩니다.

올림피아드 데이터셋은 국제 물리, 화학, 생물 올림피아드(IPhO), IChO, IBO와 같은 최고 수준의 국제 대회에서 메달을 획득한 선수들과 국가대표팀 코치들이 설계했습니다. 문제 난이도는 IPhO, IChO, IBO와 같은 주요 국제 대회와 유사합니다. 이 데이터셋은 단답형 추론 문제에 초점을 맞추고 있으며, 모델이 결과의 검증 가능성과 자동 평가의 안정성을 보장하기 위해 단일 수치 값, 대수식 또는 퍼지 매칭이 가능한 생물학 용어를 출력하도록 요구합니다.
이 연구 데이터셋은 박사 과정 학생, 박사 후 연구원, 교수 및 기타 활발히 연구 활동을 하는 연구자들이 작성했습니다. 문제들은 물리학, 화학, 생물학의 세 가지 주요 분야를 아우르며 실제 과학 연구에서 접할 수 있는 하위 문제들을 시뮬레이션합니다. 각 문제에는 10점 만점의 세분화된 점수가 부여되어 있으며, 이는 모델의 성능을 여러 핵심 요소(모델링 가정, 추론 과정, 중간 결론, 정답의 정확성 등)에서 평가합니다.

이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

undefined

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

HyperAI

이 데이터셋 사용 Discord에서 논의하기

날짜

7달 전

조직

Paper URL

7a783933efcc

라이선스

Apache 2.0

태그

Reasoning

기준

올림피아드 데이터셋은 국제 물리, 화학, 생물 올림피아드(IPhO), IChO, IBO와 같은 최고 수준의 국제 대회에서 메달을 획득한 선수들과 국가대표팀 코치들이 설계했습니다. 문제 난이도는 IPhO, IChO, IBO와 같은 주요 국제 대회와 유사합니다. 이 데이터셋은 단답형 추론 문제에 초점을 맞추고 있으며, 모델이 결과의 검증 가능성과 자동 평가의 안정성을 보장하기 위해 단일 수치 값, 대수식 또는 퍼지 매칭이 가능한 생물학 용어를 출력하도록 요구합니다.
이 연구 데이터셋은 박사 과정 학생, 박사 후 연구원, 교수 및 기타 활발히 연구 활동을 하는 연구자들이 작성했습니다. 문제들은 물리학, 화학, 생물학의 세 가지 주요 분야를 아우르며 실제 과학 연구에서 접할 수 있는 하위 문제들을 시뮬레이션합니다. 각 문제에는 10점 만점의 세분화된 점수가 부여되어 있으며, 이는 모델의 성능을 여러 핵심 요소(모델링 가정, 추론 과정, 중간 결론, 정답의 정확성 등)에서 평가합니다.

undefined

창작 전문가를 위한 창작 작업 지침 데이터 세트

3달 전

THINGS-MEG 자기뇌파 데이터셋

5달 전

THINGS-fMRI 기능적 자기공명영상 데이터셋

5달 전

Nemotron-Math-v2 수학적 추론 데이터셋

6일 전

MCIF 다중모드 다국어 교육 데이터셋

6달 전

TxT360-3efforts 멀티태스크 추론 데이터셋

24일 전

LongBench-Pro 장기 컨텍스트 종합 평가 데이터 세트

24일 전

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

FrontierScience 추론 연구 과제 평가 데이터 세트

AI로 AI 구축

HyperAI Newsletters

Command Palette

FrontierScience 추론 연구 과제 평가 데이터 세트

undefined

창작 전문가를 위한 창작 작업 지침 데이터 세트

THINGS-MEG 자기뇌파 데이터셋

THINGS-fMRI 기능적 자기공명영상 데이터셋

Nemotron-Math-v2 수학적 추론 데이터셋

MCIF 다중모드 다국어 교육 데이터셋

TxT360-3efforts 멀티태스크 추론 데이터셋

LongBench-Pro 장기 컨텍스트 종합 평가 데이터 세트

AI로 AI 구축

HyperAI Newsletters

Command Palette

FrontierScience 추론 연구 과제 평가 데이터 세트

undefined

창작 전문가를 위한 창작 작업 지침 데이터 세트

THINGS-MEG 자기뇌파 데이터셋

THINGS-fMRI 기능적 자기공명영상 데이터셋

Nemotron-Math-v2 수학적 추론 데이터셋

MCIF 다중모드 다국어 교육 데이터셋

TxT360-3efforts 멀티태스크 추론 데이터셋

LongBench-Pro 장기 컨텍스트 종합 평가 데이터 세트

AI로 AI 구축

HyperAI Newsletters

undefined

창작 전문가를 위한 창작 작업 지침 데이터 세트

THINGS-MEG 자기뇌파 데이터셋

THINGS-fMRI 기능적 자기공명영상 데이터셋

Nemotron-Math-v2 수학적 추론 데이터셋

MCIF 다중모드 다국어 교육 데이터셋

TxT360-3efforts 멀티태스크 추론 데이터셋

LongBench-Pro 장기 컨텍스트 종합 평가 데이터 세트

undefined

창작 전문가를 위한 창작 작업 지침 데이터 세트

THINGS-MEG 자기뇌파 데이터셋

THINGS-fMRI 기능적 자기공명영상 데이터셋

Nemotron-Math-v2 수학적 추론 데이터셋

MCIF 다중모드 다국어 교육 데이터셋

TxT360-3efforts 멀티태스크 추론 데이터셋

LongBench-Pro 장기 컨텍스트 종합 평가 데이터 세트