HyperAIHyperAI

Command Palette

Search for a command to run...

프론티어 사이언스: 인공지능의 전문가 수준 과학 작업 수행 능력 평가

Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan

초록

우리는 전문가 수준의 과학적 추론 능력을 평가하기 위한 벤치마크인 FrontierScience를 소개한다. FrontierScience는 두 가지 트랙으로 구성된다. 첫째, 국제올림피아드 문제를 포함하는 ‘올림피아드(Olympiad)’ 트랙이며, 이는 IPhO(국제물리올림피아드), IChO(국제화학올림피아드), IBO(국제생물올림피아드) 수준의 문제들을 포함한다. 둘째, 박사과정 수준의 개방형 문제를 포함하는 ‘연구(Research)’ 트랙으로, 과학 연구에서 발생하는 하위 문제들을 대표적으로 구성하였다. 전체적으로 FrontierScience는 양자전자역학부터 합성 유기화학에 이르기까지 물리학, 화학, 생물학 분야의 여러 하위 분야를 아우르는 수백 개의 문제(공개된 골드 세트에는 160개)로 구성되어 있다.최근 모델의 성능 향상으로 인해 기존의 과학 벤치마크는 거의 포화 상태에 이르렀다. 기존 벤치마크는 주로 다지선다식 지식 문제나 이미 공개된 정보에 기반한 문제들에 의존해 왔다. 반면, 모든 올림피아드 문제는 국제올림피아드 메달리스트 및 국가대표 팀 코치들에 의해 원작으로 제작되었으며, 난이도, 독창성, 사실성 측면에서 높은 기준을 보장한다. 모든 연구 문제는 박사과정 학생, 박사후연구원 또는 교수 등 PhD 과학자들이 직접 작성하고 검증한 연구 하위 과제들이다.연구 트랙에서는 단순히 최종 답변만 평가하는 방식이 아니라, 연구 과제를 해결하는 전 과정에 걸쳐 모델의 능력을 세부 평가 체계(rubric-based architecture)를 통해 평가할 수 있도록 새로운 평가 구조를 도입하였다. 초기 평가 결과, 여러 선도적인 모델 중 GPT-5.2가 FrontierScience에서 가장 높은 성능을 기록했으며, 올림피아드 세트에서는 77%의 점수를, 연구 세트에서는 25%의 점수를 기록하였다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
프론티어 사이언스: 인공지능의 전문가 수준 과학 작업 수행 능력 평가 | 문서 | HyperAI초신경