14일 전

R-Zero: 제로 데이터에서 시작하는 자가진화적 추론 LLM

Chengsong Huang, Wenhao Yu, Xiaoyang Wang, Hongming Zhang, Zongxia Li, Ruosen Li, Jiaxin Huang, Haitao Mi, Dong Yu
R-Zero: 제로 데이터에서 시작하는 자가진화적 추론 LLM
초록

자기진화형 대규모 언어모델(LLM)은 자율적으로 자신의 경험을 생성하고 개선하며 학습함으로써 초지능에 이르는 확장 가능한 길을 제시한다. 그러나 기존의 이러한 모델 훈련 방법은 여전히 광범위한 인간이 수작업으로 구성한 과제와 레이블에 크게 의존하며, 일반적으로 파인튜닝 또는 강화학습을 통해 이루어진다. 이는 인공지능 시스템이 인간 지능을 초월하는 능력으로 나아가는 데 있어 근본적인 한계를 초래한다. 이러한 제약을 극복하기 위해, 우리는 처음부터 자체적으로 훈련 데이터를 생성하는 완전 자율적 프레임워크인 R-Zero를 제안한다. R-Zero는 단일 기반 LLM에서 출발하여, 서로 다른 역할을 수행하는 두 개의 독립된 모델—도전자(Challenger)와 해결자(Solver)—를 초기화한다. 이 두 모델은 별도로 최적화되며, 상호작용을 통해 공진화된다. 도전자는 해결자의 능력 한계 근처에 있는 과제를 제안할수록 보상을 받으며, 해결자는 도전자로부터 제시되는 점점 더 어려운 과제를 해결할수록 보상을 받는다. 이러한 과정을 통해 사전에 존재하는 과제나 레이블 없이도 타깃화되고 자가 개선되는 학습 과정(curriculum)이 도출된다. 실험 결과, R-Zero는 다양한 기반 LLM에서 추론 능력이 크게 향상됨을 확인하였으며, 예를 들어 Qwen3-4B-Base 모델의 수학 추론 벤치마크에서 +6.49, 일반 도메인 추론 벤치마크에서 +7.54의 성능 향상을 달성하였다.