PromptCoT 2.0: 대규모 언어 모델 추론을 위한 프롬프트 생성의 확장

대규모 언어 모델(LLM)은 대화 시스템을 넘어 올림피아드 수학이나 경쟁 프로그래밍과 같은 과제에서 강력한 추론 능력을 갖춘 시스템으로 진화하고 있다. 파라미터 확장과 테스트 시 계산 능력 증대가 성과를 이끌어내고 있지만, 핵심적인 한계는 고품질의 학습 문제 부족에 있다. 인간이 수작업으로 구성한 데이터셋은 비용이 크고 제한적이며, 기존의 합성 코퍼스는 일반적으로 너무 쉬우거나 범위가 좁은 편이다. PromptCoT 1.0은 프롬프트 생성 과정에 추론 과정(rationales)을 삽입함으로써 문제의 난이도를 높일 수 있음을 보여주었다. 이를 바탕으로 본 연구는 손수 설계된 히우리스틱 대신 기대값 최대화(EM) 반복 구조를 도입한 확장 가능한 프레임워크인 PromptCoT 2.0을 제안한다. 이 프레임워크는 추론 과정을 반복적으로 개선하여 프롬프트 생성을 안내한다. 그 결과, 이전의 데이터셋보다 더 어려우면서도 더 다양한 문제를 생성할 수 있다. 이러한 합성 프롬프트는 두 가지 사후 훈련 전략을 지원한다. (1) 자기 대결(Self-Play): 강력한 모델이 더 강력한 교사 없이도 검증 가능한 피드백을 통해 자율적으로 향상된다. (2) 감독 기반 미세조정(Supervised Fine-Tuning, SFT): 약한 모델이 교사가 추출한 추론 흔적을 통해 학습한다. 광범위한 실험을 통해 본 방법의 효과성을 입증하였다. 자기 대결 전략에서, Qwen3-30B-A3B-Thinking-2507에 PromptCoT 2.0을 적용한 결과, 30B 규모에서 새로운 최고 성능을 기록하였으며, AIME 24/25에서 각각 +4.4, +4.8, +5.3의 성능 향상, HMMT 25에서 +6.1, LiveCodeBench v5/v6에서 각각 +5.0, +6.1의 향상, Codeforces에서는 +35 Elo의 성과를 달성하였다. SFT 전략에서는 Qwen2.5-7B-Instruct 모델을 오직 합성 프롬프트만으로 훈련시킨 결과, AIME 24에서 73.1, AIME 25에서 65.6, LiveCodeBench v5에서 53.4의 정확도를 기록하며, 인간 또는 하이브리드 데이터로 훈련된 모델을 초월하였다. 분석 결과 또한 PromptCoT 2.0이 본질적으로 더 어려우며, 분포상으로도 기존 데이터와 구분되는 문제를 생성함을 확인하였다. 이러한 결과는 프롬프트 생성이 추론 능력 확장의 새로운 축이 될 수 있음을 입증하며, PromptCoT 2.0이 미래 오픈소스 모델의 확장 가능한 기반 플랫폼으로서의 위치를 확립한다. 구현 코드는 다음 URL에서 공개되어 있다.https://[여기에 URL 입력]