HyperAI초신경
7일 전

한 영역이 다른 영역을 도와줄 수 있을까? 강화학습을 통한 다중 영역 추론에 대한 데이터 중심 연구

Yu Li, Zhuoshi Pan, Honglin Lin, Mengyuan Sun, Conghui He, Lijun Wu
한 영역이 다른 영역을 도와줄 수 있을까? 강화학습을 통한 다중 영역 추론에 대한 데이터 중심 연구
초록

검증 가능한 보상이 있는 강화학습(RLVR)은 대규모 언어모델(LLMs)의 추론 능력을 향상시키기 위한 강력한 패러다임으로 부상하였다. 기존 연구는 주로 수학 문제 해결, 코딩 작업, 논리적 추론과 같은 고립된 추론 분야에 집중되어 있었다. 그러나 현실 세계의 추론 시나리오는 여러 인지 기술의 통합적 적용이 필수적이다. 이러한 점에도 불구하고, 강화학습 하에서 이러한 추론 기술 간의 상호작용에 대한 이해는 여전히 부족하다. 이 격차를 메우기 위해 우리는 RLVR 프레임워크 내에서 다중 분야 추론에 대한 체계적인 연구를 제시한다. 본 연구는 수학적 추론, 코드 생성, 논리 퍼즐 해결의 세 가지 주요 분야에 특별히 초점을 맞추고 있다. 본 연구는 네 가지 핵심 구성 요소로 구성된 종합적인 분석을 수행하였다: (1) GRPO 알고리즘과 Qwen-2.5-7B 모델 가족을 활용하여, 단일 분야 데이터셋으로 훈련했을 때 모델의 내분야 개선 및 다분야 일반화 능력을 철저히 평가한다. (2) 또한, 복합 다분야 훈련 중 발생하는 상호 강화 및 갈등과 같은 복잡한 상호작용을 검토한다. (3) RL에 대한 SFT의 영향을 더 잘 이해하기 위해, 동일한 RL 구성 조건 하에서 기본 모델과 지시 모델의 성능 차이를 분석하고 비교한다. (4) 또한, 교육 과정 학습 전략, 보상 설계의 변형, 언어 특수성 요소와 같은 중요한 RL 훈련 세부 사항을 탐구하며, 체계적으로 그 영향을 탐색한다. 광범위한 실험을 통해 본 연구의 결과는 분야 간 상호작용을 지배하는 역학에 대한 중요한 통찰을 제공하며, 전문적이고 일반화 가능한 추론 성능에 영향을 미치는 핵심 요인들을 드러낸다. 이러한 발견은 대규모 언어모델(LLMs)에서 종합적이고 다분야 추론 능력을 촉진하기 위한 RL 방법론의 최적화에 중요한 지침을 제공한다.