
초록
이 논문은 OpenAI의 최신 추론 모델인 o1-preview 및 o1-mini가 다른 선도적인 모델들과 비교하여 수행한 코딩 작업에 대한 사례 연구를 제시한다. o1 모델은 단일 작업 기준 벤치마크인 WebApp1K에서 최고 성능(SOTA)을 기록한다. 이를 위해 우리는 작업 수와 테스트 케이스 수를 두 배로 늘린 더 어려운 벤치마크인 WebApp1K-Duo를 제안한다. 새로운 벤치마크에서는 o1 모델의 성능이 크게 저하되며, Claude 3.5에 비해 뒤처지는 결과를 보였다. 또한, 비정상적이지만 올바른 테스트 케이스에 직면했을 때 모델은 일관되게 실패하며, 이는 비추론 모델이 가끔 회피할 수 있는 함정이다. 우리는 성능의 변동성이 지시사항 이해의 문제로 인한 것이라고 가정한다. 구체적으로, 모든 기대사항이 정확히 반영될 경우 추론 메커니즘이 성능을 향상시키지만, 핵심적인 기대사항을 놓쳤을 경우 오류가 악화되며, 이는 입력 길이에 영향을 받을 가능성이 있다. 따라서 우리는 추론 모델의 코딩 성공 여부가 지시사항에 철저히 부합할 수 있도록 보장하기 위해 우수한 기본 모델과 SFT(Supervised Fine-Tuning)의 질에 달려 있다고 주장한다.