HyperAIHyperAI

Command Palette

Search for a command to run...

FrontierScience 추론 연구 과제 평가 데이터 세트

날짜

5달 전

조직

OpenAI

Paper URL

7a783933efcc

라이선스

Apache 2.0

FrontierScience는 OpenAI에서 2025년에 공개한 추론 및 과학 연구 과제 평가를 위한 데이터셋입니다. 관련 논문으로는 다음과 같은 것들이 있습니다... 프론티어사이언스: 인공지능의 전문가 수준 과학 작업 수행 능력 평가목표는 전문가 수준의 과학적 추론 및 연구 하위 작업에서 대규모 모델의 역량을 체계적으로 평가하는 것입니다. 본 데이터셋은 "전문가 제작 + 2단계 과제 구조 + 자동 채점 메커니즘"이라는 설계 메커니즘을 채택하고 있으며, 폐쇄형 정밀 추론과 개방형 과학 연구 추론이라는 두 가지 유형의 능력에 해당하는 두 개의 하위 집합으로 나뉩니다.

  • 올림피아드 데이터셋은 국제 물리, 화학, 생물 올림피아드(IPhO), IChO, IBO와 같은 최고 수준의 국제 대회에서 메달을 획득한 선수들과 국가대표팀 코치들이 설계했습니다. 문제 난이도는 IPhO, IChO, IBO와 같은 주요 국제 대회와 유사합니다. 이 데이터셋은 단답형 추론 문제에 초점을 맞추고 있으며, 모델이 결과의 검증 가능성과 자동 평가의 안정성을 보장하기 위해 단일 수치 값, 대수식 또는 퍼지 매칭이 가능한 생물학 용어를 출력하도록 요구합니다.
  • 이 연구 데이터셋은 박사 과정 학생, 박사 후 연구원, 교수 및 기타 활발히 연구 활동을 하는 연구자들이 작성했습니다. 문제들은 물리학, 화학, 생물학의 세 가지 주요 분야를 아우르며 실제 과학 연구에서 접할 수 있는 하위 문제들을 시뮬레이션합니다. 각 문제에는 10점 만점의 세분화된 점수가 부여되어 있으며, 이는 모델의 성능을 여러 핵심 요소(모델링 가정, 추론 과정, 중간 결론, 정답의 정확성 등)에서 평가합니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp