Command Palette
Search for a command to run...
Ziniu Li Congliang Chen Tianyun Yang Tian Ding Ruoyu Sun Ge Zhang Wenhao Huang Zhi-Quan Luo

초록
대규모 언어 모델(LLM)은 강화학습을 통해 자가 개선이 가능하며, 이 과정에서 다양한 전략을 생성하여 더 나은 해결책을 탐색한다. 그러나 이러한 탐색 과정은 계산적으로 매우 비용이 크기 때문에, 현재의 방법들은 각 작업에 대해 제한된 탐색 예산을 할당할 수밖에 없다. 이러한 균일한 예산 배분 방식은 문제적인 극단적인 사례를 초래한다. 쉬운 작업은 지속적으로 성공하고, 어려운 작업은 지속적으로 실패하게 되며, 이로 인해 그룹 상대적 정책 최적화(GRPO)에서 널리 사용되는 학습 업데이트 과정에서 모두 0의 기울기(gradient)가 발생하게 된다. 본 연구는 탐색 예산 배분 관점에서 이 문제를 해결한다. 각 작업의 탐색을 ‘가치’와 ‘비용’을 갖는 ‘항목’으로 간주함으로써, 고전적인 배낭 문제(Knapsack Problem)와 연결함으로써 최적의 예산 배분 규칙을 도출한다. 이 방식은 모델의 현재 학습 상태에 따라 자동으로 자원을 효율적으로 분배할 수 있도록 한다. GRPO에 적용했을 때, 제안된 방법은 학습 중 비영 기울기(non-zero policy gradients)의 효과적 비율을 20~40% 증가시킨다. 이는 계산적 ‘무료 점심(free lunch)’과 같은 효과를 가져오며, 학습이 포화 상태에 이른 작업에서의 탐색 예산을 학습 효과가 가장 큰 작업으로 재할당할 수 있게 한다. 그 결과, 극도로 어려운 문제에 대해 기존의 균일한 배분 방식에서는 계산적으로 불가능한 수준(예: 93회 롤아웃)의 더 큰 예산을 활용할 수 있게 된다. 이러한 개선은 수학적 추론 벤치마크에서 실질적인 성능 향상으로 이어지며, 평균적으로 2~4점의 개선을 보이고, 특정 작업에서는 최대 9점의 성능 향상을 달성한다. 특히, 기존의 동질적(homogeneous) 예산 배분 방식으로 동일한 성능을 달성하기 위해서는 약 2배의 계산 자원이 필요하다는 점에서 주목할 만하다.