Command Palette
Search for a command to run...
GPT-5가 모든 분야에서 선두를 달리고 있습니다. OpenAI는 대규모 모델의 성능을 테스트하기 위해 "추론 + 연구"라는 두 가지 접근 방식을 사용하는 FrontierScience를 출시했습니다.

모델의 추론 및 지식 습득 능력이 지속적으로 향상됨에 따라, 과학 연구 가속화에 대한 모델의 능력을 측정하고 예측하기 위해서는 더욱 까다로운 벤치마크 테스트가 필수적입니다. 2025년 12월 16일, OpenAI는 전문가 수준의 과학적 역량을 측정하기 위해 설계된 벤치마크인 FrontierScience를 출시했습니다.예비 평가에 따르면 GPT-5.2는 FrontierScience-Olympiad 과제에서 25%, 연구 과제에서 77%를 획득하여 다른 최첨단 모델들을 능가하는 성능을 보였습니다.
오픈AI는 공식 성명을 통해 "과학 발전을 가속화하는 것은 인공지능이 인류에게 혜택을 줄 수 있는 가장 유망한 기회 중 하나이므로, 우리는 복잡한 수학 및 과학적 작업을 위한 모델을 개선하고 과학자들이 이러한 모델을 최대한 활용할 수 있도록 지원하는 도구를 개발하기 위해 노력하고 있습니다."라고 밝혔습니다.
기존의 과학 분야 시험들은 대부분 객관식 문제에 치중되어 있었으며, 문제 유형이 지나치게 복잡하거나 과학적 내용에 대한 집중도가 부족한 경우가 많았습니다. 이와 달리, FrontierScience는 기존 시험들과는 달리 물리학, 화학, 생물학 분야 전문가들이 직접 출제하고 검증했습니다.이 시험은 올림픽 형식의 문제와 연구 기반 문제 유형을 모두 포함하고 있어 과학적 추론 능력과 과학 연구 능력을 모두 측정할 수 있습니다.또한 FrontierScience-Research에는 박사급 과학자들이 설계한 60개의 독창적인 연구 하위 과제가 포함되어 있으며, 난이도는 박사급 과학자들이 연구 과정에서 접할 수 있는 수준과 유사합니다.
벤치마킹의 미래와 한계에 관해 오픈아이얼은 공식 보고서에서 "프론티어사이언스는 범위가 좁아 과학자들의 일상 업무 전반을 포괄할 수 없다는 한계가 있다. 하지만 이 분야에는 더욱 도전적이고 독창적이며 의미 있는 과학적 벤치마크가 필요하며, 프론티어사이언스는 그 방향으로 나아가는 한 걸음이다."라고 밝혔다.
해당 프로젝트의 연구 결과는 "프론티어사이언스: 전문가 수준의 과학적 작업을 수행하는 AI의 능력 평가"라는 제목으로 발표되었습니다.
서류 주소:
https://hyper.ai/papers/7a783933efcc
추가 논문:
더 많은 벤치마크 보기:

FrontierScience 데이터 세트는 "추론 + 연구"라는 두 가지 접근 방식을 가능하게 합니다.
본 프로젝트에서 연구팀은 전문가 수준의 과학적 추론 및 연구 하위 작업에서 대규모 모델의 성능을 체계적으로 평가하기 위해 FrontierScience 평가 데이터 세트를 구축했습니다.본 데이터셋은 "전문가 생성 + 2단계 과제 구조 + 자동 채점 메커니즘"이라는 설계 메커니즘을 채택하여 도전적이고 확장 가능하며 재현 가능한 과학적 추론 평가 벤치마크를 구축합니다.
데이터 세트 주소:
https://hyper.ai/datasets/47732
다양한 과제 형식과 평가 목표를 기반으로 FrontierScience 데이터 세트는 두 가지 유형의 능력, 즉 폐쇄형 정확 추론과 개방형 과학적 추론에 해당하는 두 개의 하위 집합으로 나뉩니다.
* 올림피아드 데이터셋: 국제 물리, 화학, 생물 올림피아드 메달 수상자와 국가대표팀 코치들이 설계했으며, IPhO, IChO, IBO와 같은 최고 수준의 국제 대회와 유사한 난이도를 가지고 있습니다. 특히 단답형 추론 문제에 초점을 맞추어, 모델이 단일 수치 값, 대수적 표현 또는 생물학 용어를 출력하도록 요구함으로써 결과의 검증 가능성과 자동 평가의 안정성을 보장합니다.
* 연구 데이터 세트: 박사 과정 학생, 박사 후 연구원, 교수 및 기타 활발한 연구자들이 구축한 이 데이터 세트는 물리학, 화학, 생물학의 세 가지 주요 분야를 포괄하며 실제 과학 연구에서 발생할 수 있는 하위 문제들을 시뮬레이션합니다. 각 문제에는 10점 만점의 세분화된 점수가 부여되어 정답 여부뿐 아니라 모델링 가정의 완성도, 추론 과정, 중간 결론 도출 등 여러 핵심 측면에서 모델의 성능을 평가합니다.
문제의 독창성과 엄밀성을 확보하기 위해 연구팀은 내부 모델 테스트 단계에서 문제를 선별하여 기존 모델로 쉽게 해결할 수 있는 문제를 제거함으로써 평가 포화 위험을 줄였습니다. 학습 과제는 생성, 검토, 해결, 수정의 총 네 단계를 거칩니다. 독립적인 전문가들이 서로의 과제를 검토하여 기준을 충족하는지 확인합니다.최종적으로 연구팀은 수백 개의 후보 질문 중에서 160개의 공개 질문 자료를 선정했으며, 나머지 질문은 향후 오염 감지 및 장기 평가를 위한 예비 자료로 보관했습니다.

독립 부분집합 샘플링 및 GPT-5.2와 같은 다른 모델들은 인상적인 점수를 얻었습니다.
연구팀은 외부 자료 검색에 의존하지 않고 대규모 모델의 과학적 추론 능력을 안정적이고 재현성 있게 평가하기 위해 엄격한 평가 과정과 점수 산정 메커니즘을 설계했습니다.
본 연구는 과학적 추론 분야에서 현재 범용 대형 모델의 전반적인 역량 수준을 최대한 반영하기 위해 다양한 기관과 기술적 접근 방식을 아우르는 몇 가지 주류 최첨단 대형 모델을 평가 대상으로 선정했다.평가 과정 동안 모든 모델은 인터넷 연결이 차단되어, 모델의 출력 결과가 실시간 정보 검색이나 외부 도구의 영향을 받지 않고 오로지 내부 지식과 추론 능력에만 기반하도록 했습니다.이는 서로 다른 모델 간의 정보 획득 능력 차이가 결과에 미치는 영향을 줄여줍니다.
생성 반응에서 대규모 모델의 본질적인 무작위성을 고려하여 연구팀은 무작위 변동을 방지하기 위해 올림피아드와 연구라는 두 하위 집합에서 여러 개의 독립적인 샘플을 추출하고 결과를 평균화하는 통계 분석을 수행했습니다.채점 방식과 관련하여, 본 논문은 두 가지 유형의 작업에 대해 각기 다른 특성을 고려하여 자동화된 평가 전략을 설계합니다.
* 프론티어과학 올림피아드 하위 유형: 폐쇄형 추론을 강조하며, 채점은 주로 답의 동등성 판단에 기반합니다. 합리적인 오차 범위 내에서 수치적 근사치를 허용하고, 대수적 표현의 동등한 변환을 허용하며, 생물학적 질문에서 용어나 이름의 유사성을 허용하는 동시에 표현 형식에 지나치게 민감하지 않도록 합니다.
* 프론티어 사이언스-연구 하위 집합: 실제 연구 과제를 매우 유사하게 구현했으며, 각 질문은 연구 추론 과정을 여러 개의 독립적이고 검증 가능한 핵심 단계로 세분화합니다. 모델의 답변은 최종 결론의 정확성뿐만 아니라 평가 기준표에 따라 항목별로 채점됩니다.
전반적으로 FrontierScience 벤치마크는 두 가지 유형의 작업에서 성능 차이가 뚜렷하게 나타나는 추세를 보여줍니다.
올림피아드 하위 집합에서 대부분의 최첨단 모델은 높은 점수를 획득했습니다. 그중에서도,종합 점수가 가장 높은 상위 3개 모델은 GPT-5.2, Gemini 3 Pro, Claude Opus 4.5이며, GPT-4o와 OpenAI-o1은 상대적으로 저조한 성능을 보였습니다.이 연구는 조건이 명확하고 추론 경로가 비교적 한정적이며 답을 검증할 수 있는 이러한 유형의 문제에서 대부분의 모델이 복잡한 계산과 논리적 추론을 안정적으로 완료할 수 있었고, 전반적인 성능이 고도의 인간 문제 해결 능력에 근접했음을 보여줍니다.

하지만 FrontierScience-Research 하위 데이터셋에서는 모델의 전체 점수가 상당히 낮았습니다..연구 하위 집합에서 모델은 복잡한 연구 문제를 분해하는 과정에서 편향될 가능성이 더 높습니다.예를 들어, 문제 목표에 대한 불완전한 이해, 핵심 변수 또는 가정의 부적절한 처리, 또는 긴 추론 과정 내에서 점진적으로 누적되는 논리적 오류 등이 있을 수 있습니다. 올림피아드 유형의 문제와 비교했을 때, 대규모 모델은 보다 개방적이고 실제 연구 과정에 가까운 과제에 직면했을 때 여전히 상당한 역량 격차를 보입니다. 실험 데이터를 기반으로,연구 부문에서 우수한 성능을 보인 모델은 GPT-5, GPT-5.2, GPT-5.1이었습니다.

본 연구에서는 다양한 추론 강도 조건에서 FrontierScience-Olympiad 및 FrontierScience-Research 테스트 세트에 대한 GPT-5.2와 OpenAI-o3의 정확도 성능을 비교했습니다. 결과는 다음과 같습니다...테스트에 사용된 토큰 수가 증가함에 따라 GPT-5.2의 정확도는 올림피아드 데이터셋에서 67.51 TP3T에서 77.11 TP3T로, 연구 데이터셋에서는 181 TP3T에서 251 TP3T로 향상되었습니다.연구 데이터 세트에서 o3 모델은 추론 강도가 높을 때보다 중간일 때 성능이 약간 더 떨어지는 것으로 나타났다는 점에 주목할 필요가 있습니다.

프론티어사이언스의 전반적인 설계 및 실험 결과를 바탕으로,이 대형 모델은 구조가 명확하고 조건이 한정된 과학적 문제에서 안정적인 성능을 보였으며, 일부 작업에서는 인간 전문가 수준에 근접하는 성능을 나타냈다.하지만 지속적인 모델링, 문제 분해, 그리고 긴 연쇄 추론에서 일관성을 유지해야 하는 연구 하위 작업에 진입할 경우 그 기능은 여전히 상당히 제한적입니다.
답변의 정확성을 넘어, 대규모 모델은 새로운 수준의 역량을 제시하고 있습니다.
OpenAI는 공식 설명에서 FrontierScience가 과학자들의 일상 업무 전반을 포괄하지는 않는다고 명시적으로 밝혔습니다. FrontierScience의 과제는 여전히 주로 텍스트 기반 추론에 초점을 맞추고 있으며, 실험 작업, 멀티모달 정보, 실제 연구 협업 과정 등은 포함하지 않습니다. 그러나 기존 과학 평가 방식이 포화 상태에 이른 상황에서 FrontierScience는 더욱 도전적이고 진단적으로 가치 있는 평가 방식을 제시합니다. 모델 답변의 정확성뿐 아니라 연구 하위 과제를 수행할 수 있는 모델의 능력을 체계적으로 측정하기 시작하기 때문입니다. 이러한 관점에서 FrontierScience의 가치는 단순히 순위표 자체에 있는 것이 아니라, 향후 모델 개선 및 과학 지능 연구를 위한 새로운 기준점을 제공한다는 데 있습니다. 모델 추론 능력이 지속적으로 발전함에 따라 독창성, 전문가 참여, 프로세스 평가를 강조하는 이러한 유형의 기준점은 인공지능이 진정으로 연구 협업 단계로 나아가고 있는지 여부를 가늠하는 중요한 지표가 될 수 있습니다.
참조 링크:
1.https://cdn.openai.com/pdf/2fcd284c-b468-4c21-8ee0-7a783933efcc/frontierscience-paper.pdf
2.https://openai.com/index/frontierscience/
3.https://huggingface.co/datasets/openai/frontierscience








