Command Palette
Search for a command to run...
Daya Guo Dejian Yang Haowei Zhang Junxiao Song Peiyi Wang et al

초록
일반적 추론은 인공지능(AI) 분야에서 오랫동안 지속된 도전 과제이다. 최근 대규모 언어 모델(LLM)1,2와 사고의 흐름(Chain-of-Thought, CoT) 프롬프팅3과 같은 돌파구를 통해 기초적인 추론 과제에서 상당한 성과를 거두었다. 그러나 이러한 성과는 방대한 인적 주석 데이터에 크게 의존하며, 모델의 능력은 여전히 더 복잡한 문제 해결에 한계를 보이고 있다. 본 연구에서는 순수한 강화학습(RL)을 통해 LLM의 추론 능력을 유도할 수 있음을 보여준다. 이 방법은 인간이 라벨링한 추론 경로의 필요성을 제거한다. 제안된 RL 프레임워크는 자가 반성, 검증, 동적 전략 적응과 같은 고도화된 추론 패턴의 자연스러운 발현을 촉진한다. 그 결과, 수학, 프로그래밍 대회, 과학·기술·공학·수학(STEM) 분야 등 검증 가능한 과제에서 기존 인간 주석 데이터를 통한 전통적 지도학습으로 훈련된 모델들을 뛰어넘는 우수한 성능을 달성한다. 또한, 대규모 모델에서 나타나는 이러한 자연 발생적 추론 패턴은 체계적으로 소규모 모델의 추론 능력을 안내하고 향상시키는 데 활용될 수 있다.