HyperAIHyperAI

Command Palette

Search for a command to run...

병렬-R1: 강화학습을 통한 병렬 사고 지향

초록

병렬 사고(parallel thinking)는 여러 추론 경로를 동시에 탐색함으로써 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 새로운 접근 방식으로 부상하고 있다. 그러나 기존의 방법들이 주로 합성 데이터를 기반으로 한 지도 미세조정(SFT)에 의존함으로써, 탐색과 일반화를 촉진하기보다는 교사 강제 사전 학습(teacher-forced imitation)을 유도하기 때문에, 병렬 사고 능력을 훈련을 통해 활성화하는 것은 여전히 도전 과제이다. 이와 달리 본 연구에서는 복잡한 실세계 추론 과제에 대해 병렬 사고 행동을 가능하게 하는 최초의 강화학습(RL) 프레임워크인 Parallel-R1을 제안한다. 본 프레임워크는 병렬 사고를 RL로 훈련할 때 발생하는 쿨스타트 문제(cold-start problem)를 명시적으로 해결하기 위해 점진적인 커리큘럼을 도입한다. 먼저, 쉬운 과제에서 프롬프트 생성된 추적 경로(prompt-generated trajectories)를 활용해 SFT를 수행하여 병렬 사고 능력을 초기에 부여한 후, 더 어려운 문제에서 이 능력을 탐색하고 일반화하기 위해 RL로 전환한다. MATH, AMC23, AIME 등 다양한 수학 기준 평가에서의 실험 결과에 따르면, Parallel-R1은 병렬 사고를 성공적으로 도입하였으며, 어려운 과제에서 직접 RL로 훈련된 순차적 사고 모델 대비 정확도에서 8.4% 향상을 달성하였다. 추가 분석을 통해 모델의 사고 방식에 명확한 전환점이 존재하는 것으로 나타났다. 초기 단계에서는 병렬 사고를 탐색 전략으로 활용하지만, 후기 단계에서는 동일한 능력을 다중 관점 검증에 사용한다. 특히 중요한 점은, 병렬 사고가 중간 훈련 단계에서 탐색을 위한 보조 구조(scaffold)로 작용함을 검증한 것이다. 이 일시적인 탐색 단계는 RL 후에 더 높은 성능 한계를 열어주며, AIME25에서 기준 모델 대비 42.9%의 성능 향상을 가져왔다. 본 연구의 모델, 데이터, 코드는 https://github.com/zhengkid/Parallel-R1에서 오픈소스로 공개될 예정이다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
병렬-R1: 강화학습을 통한 병렬 사고 지향 | 문서 | HyperAI초신경