Command Palette
Search for a command to run...
PretrainZero: 강화 학습 기반 주동 사전학습
PretrainZero: 강화 학습 기반 주동 사전학습
Xingrun Xing Zhiyuan Fan Jie Lou Guoqi Li Jiajun Zhang Debing Zhang
초록
인간의 행동을 모방하여 일반적인 경험으로부터 능동적으로 학습하고 인공 일반지능(Artificial General Intelligence)을 달성하는 것은 오랜 시간 동안 인간의 꿈이었다. 최근 강화학습(Reinforcement Learning, RL) 기반의 대규모 사고 모델은 소프트웨어 및 수학 등 전문 분야에서 놀라운 전문가 수준의 능력을 보여주고 있으나, 여전히 특정 도메인 내에서 검증 가능한 보상(reward)에 크게 의존하고 있어, 일반적 추론 능력의 성능 한계를 극복하는 데 중대한 장벽이 되고 있다. 본 연구에서는 도메인 특화된 후학습(post-training)에서 벗어나 일반적인 사전학습(pretraining) 단계로 강화학습을 확장할 수 있는 'PretrainZero'라는 강화학습 기반의 능동적 학습 프레임워크를 제안한다. PretrainZero는 다음과 같은 특징을 갖는다. 1) 능동적 사전학습(Active pretraining): 인간의 능동적 학습 능력에 영감을 받아, PretrainZero는 사전학습 코퍼스에서 합리적이고 정보가 풍부한 콘텐츠를 능동적으로 탐지하고, 강화학습을 통해 해당 콘텐츠를 추론하여 예측하는 통합 추론 정책을 학습한다. 2) 자기지도 학습(Self-supervised learning): 검증 가능한 레이블, 사전학습된 보상 모델, 또는 지도 미세조정(supervised fine-tuning) 없이도, 일반적인 위키백과 코퍼스를 기반으로 3B에서 30B 규모의 베이스 모델에 대해 강화학습을 통해 직접 추론 모델을 사전학습할 수 있다. 이는 일반 추론을 위한 검증 데이터의 벽을 획기적으로 극복한다. 3) 검증 규모 확장(Verification scaling): 점점 더 도전적인 마스킹된 구간(masked spans)을 해결함으로써 PretrainZero는 사전학습된 베이스 모델의 일반적 추론 능력을 크게 향상시킨다. 강화학습 기반 사전학습에서 PretrainZero는 Qwen3-4B-Base 모델의 성능을 MMLU-Pro, SuperGPQA, 수학 평균 벤치마크에서 각각 8.43점, 5.96점, 10.60점 향상시켰다. 또한 후학습 단계에서는 사전학습된 모델이 하류의 강화학습 기반 검증 작업(RLVR)에 대한 추론 기반 모델로 활용될 수 있다.