Command Palette
Search for a command to run...
사전 훈련, 중간 훈련 및 강화 학습 간의 상호작용에 관한 연구: 추론을 수행하는 언어 모델에 대한 고찰
사전 훈련, 중간 훈련 및 강화 학습 간의 상호작용에 관한 연구: 추론을 수행하는 언어 모델에 대한 고찰
Charlie Zhang Graham Neubig Xiang Yue
초록
최근 강화학습(RL) 기법들은 언어 모델의 추론 능력 향상에 놀라운 성과를 거두었으나, 사전학습 기간 동안 획득한 능력 이외에 사후학습이 모델의 추론 능력을 진정으로 확장하는지 여부는 여전히 명확하지 않다. 핵심 과제는 현대 학습 파이프라인의 통제 부족에 있다. 대규모 사전학습 데이터셋은 투명하지 않고, 중간 학습 과정은 종종 충분히 분석되지 않으며, 강화학습 목표는 알려지지 않은 사전 지식과 복잡하게 상호작용한다. 이러한 모호성을 해소하기 위해, 사전학습, 중간 학습, 그리고 RL 기반 사후학습의 인과적 기여를 분리할 수 있는 완전히 통제된 실험 프레임워크를 개발하였다. 본 연구에서는 명시적인 원자적 연산을 포함하는 합성 추론 과제, 해석 가능한 단계별 추론 추적, 그리고 학습 분포의 체계적 조작을 활용한다. 모델의 성능은 두 가지 축을 기준으로 평가한다: 더 복잡한 조합에 대한 외삽적 일반화 능력과 표면적 맥락 간의 맥락 일반화 능력. 이러한 프레임워크를 통해 강화학습의 효과성에 대한 대립되는 견해를 통합적으로 해석할 수 있었다. 본 연구 결과는 다음과 같다. 1) 사전학습이 충분한 여유 공간을 남기고, RL 데이터가 모델의 능력 한계에 해당하는 과제(어려우나 아직 도달 불가능한 수준은 아님)를 타깃으로 할 때에만, RL이 진정한 능력 향상을 가져온다( pass@128 기준). 2) 맥락 일반화는 최소한의 사전학습 노출만으로도 충분하며, 이후 RL은 신뢰할 수 있게 전이가 가능하다. 3) 고정된 컴퓨팅 자원 하에서, 단순히 RL만을 적용하는 것보다 중간 학습이 성능을 크게 향상시키며, 이는 학습 파이프라인에서 중간 학습이 핵심적이지만 여전히 충분히 탐색되지 않은 역할임을 보여준다. 4) 과정 수준의 보상은 보상 조작(reward hacking)을 감소시키고 추론의 정확도를 향상시킨다. 이러한 결과들은 사전학습, 중간 학습, 그리고 강화학습 간의 상호작용을 명확히 하며, 추론 능력을 갖춘 언어 모델의 학습 전략을 이해하고 개선할 수 있는 기반을 제공한다.