한 달 전

공유는 배려이다: 집단적 강화학습 경험 공유를 통한 효율적인 언어모델 후학습

Jeffrey Amico, Gabriel Passamani Andrade, John Donaghy, Ben Fielding, Tristin Forbus, Harry Grieve, Semih Kara, Jari Kolehmainen, Yihua Lou, Christopher Nies, Edward Phillip Flores Nuño, Diogo Ortega, Shikhar Rastogi, Austin Virts, Matthew J. Wright
공유는 배려이다: 집단적 강화학습 경험 공유를 통한 효율적인 언어모델 후학습
초록

강화학습(RL)을 활용한 후학습 언어모델(LM)은 지도 미세조정 없이도 복잡한 추론 능력을 향상시킬 수 있으며, DeepSeek-R1-Zero를 통해 이를 입증하였다. 그러나 LM에 대해 효과적으로 RL을 활용하기 위해서는 추론의 확장(scale-up)을 위해 대규모 병렬 처리가 필요하며, 이는 지연(latency), 메모리, 신뢰성 등 복잡한 기술적 과제와 함께 지속적으로 증가하는 재정적 비용을 동반한다. 본 연구에서는 완전히 탈중앙화되고 비동기적인 RL 후학습 알고리즘인 Swarm sAmpling Policy Optimization(SAPO)을 제안한다. SAPO는 다양한 컴퓨팅 노드로 구성된 탈중앙화 네트워크를 대상으로 설계되었으며, 각 노드는 자체의 정책 모델을 관리하면서 네트워크 내 다른 노드들과 '롤아웃(rollouts)'을 공유한다. 이 알고리즘은 지연 시간, 모델 동질성, 하드웨어 유사성에 대한 명시적 가정을 필요로 하지 않으며, 필요 시 각 노드가 고립된 상태에서 독립적으로 작동할 수도 있다. 결과적으로, SAPO는 RL 후학습 확장 과정에서 흔히 발생하는 공통적인 성능 저하 요인을 피하면서도 새로운 가능성을 수용하고 심지어 촉진할 수 있다. 네트워크를 통해 공유된 롤아웃을 샘플링함으로써, '아하 경험(Aha moments)'이 네트워크 내에서 전파될 수 있게 되어 학습 과정이 자가 부스팅되는 효과를 낳는다. 본 논문에서는 통제된 실험에서 SAPO가 최대 94%까지 누적 보상 증가를 달성함을 보여준다. 또한, 오픈소스 데모 기간 동안 Gensyn 커뮤니티 구성원들이 다양한 하드웨어와 모델을 사용하여 알고리즘을 실행하며 구성한 수천 개의 노드로 구성된 네트워크에서 수행한 테스트를 통해 얻은 통찰도 공유한다.