Command Palette
Search for a command to run...
FrontierScience 추론 연구 과제 평가 데이터 세트
FrontierScience는 OpenAI에서 2025년에 공개한 추론 및 과학 연구 과제 평가를 위한 데이터셋입니다. 관련 논문으로는 다음과 같은 것들이 있습니다... 프론티어사이언스: 인공지능의 전문가 수준 과학 작업 수행 능력 평가목표는 전문가 수준의 과학적 추론 및 연구 하위 작업에서 대규모 모델의 역량을 체계적으로 평가하는 것입니다. 본 데이터셋은 "전문가 제작 + 2단계 과제 구조 + 자동 채점 메커니즘"이라는 설계 메커니즘을 채택하고 있으며, 폐쇄형 정밀 추론과 개방형 과학 연구 추론이라는 두 가지 유형의 능력에 해당하는 두 개의 하위 집합으로 나뉩니다.
- 올림피아드 데이터셋은 국제 물리, 화학, 생물 올림피아드(IPhO), IChO, IBO와 같은 최고 수준의 국제 대회에서 메달을 획득한 선수들과 국가대표팀 코치들이 설계했습니다. 문제 난이도는 IPhO, IChO, IBO와 같은 주요 국제 대회와 유사합니다. 이 데이터셋은 단답형 추론 문제에 초점을 맞추고 있으며, 모델이 결과의 검증 가능성과 자동 평가의 안정성을 보장하기 위해 단일 수치 값, 대수식 또는 퍼지 매칭이 가능한 생물학 용어를 출력하도록 요구합니다.
- 이 연구 데이터셋은 박사 과정 학생, 박사 후 연구원, 교수 및 기타 활발히 연구 활동을 하는 연구자들이 작성했습니다. 문제들은 물리학, 화학, 생물학의 세 가지 주요 분야를 아우르며 실제 과학 연구에서 접할 수 있는 하위 문제들을 시뮬레이션합니다. 각 문제에는 10점 만점의 세분화된 점수가 부여되어 있으며, 이는 모델의 성능을 여러 핵심 요소(모델링 가정, 추론 과정, 중간 결론, 정답의 정확성 등)에서 평가합니다.