공유는 배려이다: 집단적 강화학습 경험 공유를 통한 효율적인 언어모델 후학습

강화학습(RL)을 활용한 후학습 언어모델(LM)은 지도 미세조정 없이도 복잡한 추론 능력을 향상시킬 수 있으며, DeepSeek-R1-Zero를 통해 이를 입증하였다. 그러나 LM에 대해 효과적으로 RL을 활용하기 위해서는 추론의 확장(scale-up)을 위해 대규모 병렬 처리가 필요하며, 이는 지연(latency), 메모리, 신뢰성 등 복잡한 기술적 과제와 함께 지속적으로 증가하는 재정적 비용을 동반한다. 본 연구에서는 완전히 탈중앙화되고 비동기적인 RL 후학습 알고리즘인 Swarm sAmpling Policy Optimization(SAPO)을 제안한다. SAPO는 다양한 컴퓨팅 노드로 구성된 탈중앙화 네트워크를 대상으로 설계되었으며, 각 노드는 자체의 정책 모델을 관리하면서 네트워크 내 다른 노드들과 '롤아웃(rollouts)'을 공유한다. 이 알고리즘은 지연 시간, 모델 동질성, 하드웨어 유사성에 대한 명시적 가정을 필요로 하지 않으며, 필요 시 각 노드가 고립된 상태에서 독립적으로 작동할 수도 있다. 결과적으로, SAPO는 RL 후학습 확장 과정에서 흔히 발생하는 공통적인 성능 저하 요인을 피하면서도 새로운 가능성을 수용하고 심지어 촉진할 수 있다. 네트워크를 통해 공유된 롤아웃을 샘플링함으로써, '아하 경험(Aha moments)'이 네트워크 내에서 전파될 수 있게 되어 학습 과정이 자가 부스팅되는 효과를 낳는다. 본 논문에서는 통제된 실험에서 SAPO가 최대 94%까지 누적 보상 증가를 달성함을 보여준다. 또한, 오픈소스 데모 기간 동안 Gensyn 커뮤니티 구성원들이 다양한 하드웨어와 모델을 사용하여 알고리즘을 실행하며 구성한 수천 개의 노드로 구성된 네트워크에서 수행한 테스트를 통해 얻은 통찰도 공유한다.