HyperAI超神经

한 예제로 강화 학습? 공학적 접근만으로는 실제로 제품화하기 어렵다. 미세 조정(fine-tuning)은 비용이 많이 든다. 그리고 강화 학습(Reinforcement Learning, RL)? 그동안 잘 자금을 지원받고 대규모 데이터셋을 보유한 연구실에서만 가능하다고 여겨져 왔다. 그러나 마이크로소프트와 학계 협력자들의 새로운 연구가 이러한 가정을 무너뜨렸다. '강화 학습에 검증 가능한 보상(Reinforcement Learning with Verifiable Rewards, RLVR)'을 사용해 단 하나의 훈련 예제로도 천 개 이상의 예제를 사용한 모델과 같은, 때로는 그보다 더 나은 성능을 달성했다. 이 성과는 단순히 점진적인 발전이 아니라, 대형 언어 모델(Large Language Models, LLMs)을 추론 작업에 미세 조정하는 방식을 재고하게 하는 결과이다. 이 글에서는 1-샷 RLVR이 무엇인지, 어떻게 작동하는지, 그리고 수학 에이전트, 자동 튜터, 추론 코파일럿 등을 개발하는 데 어떤 의미가 있는지 살펴볼 것이다. 1-샷 RLVR: 무엇인가? RLVR은 보상 신호가 주로 출력의 정확성을 기준으로 0/1로 검증되는 강화 학습의 한 형태이다. 이는 Rlhf에서 사용되는 보상 모델과는 다르게 실제로 검증된 결과를 기반으로 한다. 연구팀은 Qwen2.5-Math-1.5B라는 기본 모델에 RLVR을 적용하고, 단 하나의 신중하게 선별된 수학 문제로 훈련시켰다. 그 결과 벤치마크 작업에서 성능이 거의 두 배로 향상되었다. 놀라운 숫자들 Qwen2.5-Math-1.5B를 단 하나의 예제로 훈련시킨 결과는 다음과 같다: - MATH500에서 68.0%의 성능 - 평균 성능 36.0% 두 개의 예제를 사용하면 MATH500에서 74.8%, 평균 성능 36.6%를 달성해, 1,200개의 예제로 구성된 전체 데이터셋에서조차 더 나은 성능을 보였다. 이 성과는 우연이 아니었다. 다양한 예제들이 각각 사용될 때 30% 이상의 성능 향상을 가져왔다. 이 접근법이 효과적인 이유 논문에서는 다음과 같은 가설과 발견 사항들을 제시한다: - 정책 경사 손실(Policy Gradient Loss)이 주요 역할: 이 손실 함수를 제거하면 성능 향상이 사라져, 이가 개선의 주역임을 보여준다. - 엔트로피 손실(Entropy Loss)이 탐색을 촉진: 보상 없이 엔트로피 정규화를 추가하더라도 성능이 25% 이상 향상된다. - 포스트 포화 일반화(Post-Saturation Generalization): 훈련 예제에서의 정확도가 100%에 도달해도 테스트 세트에서의 일반화는 계속 향상된다. - 영역 간 효과(Cross-Domain Effects): 기하학 예제가 대수와 수론 성능을 향상시키는 등 다른 영역에서도 효과를 본다. - 자기 반성(Self-Reflection) 증가: 1-샷 RLVR로 훈련된 모델은 "재고민(rethink)", "재확인(recheck)", "재계산(recalculate)" 등의 용어를 더 자주 사용한다. 개발자들에게 미치는 영향 추론 도구, 수학 해결사, 과학 튜터, 데이터 에이전트 등을 LLM으로 구축하는 개발자들에게 이 기술은 큰 도움이 된다: - 단 하나의 문제를 학습해 교육 과정 전체에 일반화할 수 있는 AI 튜터를 상상해보자. 그 미래가 다가왔다. 수학을 넘어서: 초기 전이 징후 저자들은 ARC-Challenge와 ARC-Easy, 수학 이외의 추론 벤치마크에서 평가를 진행했다. Qwen2.5-Math-1.5B의 성과는 다음과 같았다: - ARC-Challenge에서 53.5% - ARC-Easy에서 87.2% 이는 전체 데이터셋을 사용한 RLVR보다도 더 좋은 성과를 보여, 수학 문제를 통해 훈련한 것이 모델이 더 나은 상식 추론 능력을 갖게 됐음을 입증한다. 좋은 예제 선택의 중요성 역사적 훈련 분산을 활용해 고영향 예제(π1과 π13)를 선택하는 방법이 효과적이었다. 그러나 의외로 분산이 낮은 예제들조차도 성능 향상에 기여했다. 완벽한 레시피는 아직 없지만, 초기 통찰은 매우 긍정적이다: - "거의 모든 예제가 1-샷 RLVR에서 성능을 향상시킨다." 단 하나의 예제가 부족할 때 특히 DeepSeek-R1-Distill-Qwen-1.5B와 같은 축소된 모델의 경우 1-샷 RLVR의 성능 향상이 크지 않았다(약 6.9%). 하지만 4-샷 또는 16-샷 구성을 사용하면 꾸준한 향상을 보였다. 이는 모델 종류와 훈련 역사가 중요한 역할을 함을 시사하지만, 전체적으로 데이터가 필요하다는 생각을 바꿔놓았다: - 우리는 예상했던 것보다 훨씬 적은 데이터로도 충분하다. 엔트로피의 역할: 왜 탐색이 중요한가? 논문에서 가장 놀라운 발견 중 하나는 보상 없이도 엔트로피 손실만으로 큰 성과를 거둘 수 있다는 점이다. - 예: Qwen2.5-Math-1.5B를 엔트로피 손실만으로 20단계 동안 훈련시키면 MATH500에서 36.0%에서 63.4%로 성능이 향상된다. 이는 강력한 원칙을 밝혀냈다: - 모델이 더 자유롭게 탐색할 수 있게 하면 단 하나의 예제로도 일반화 능력이 향상된다. 1-샷 ≠ 깨달음(Grokking) 포스트 포화 일반화는 모델이 오랜 기간 과적합 후 갑자기 일반화 능력을 획득하는 '깨달음'을 연상시킬 수도 있다. 그러나 제거 실험(ablation study)은 1-샷 RLVR이 다르다는 것을 보여준다. 미래: 더 똑똑한 데이터, 더 작은 자국 이 논문은 적은 데이터가 항상 답이 아님을 상기시킨다. 더 나은 데이터, 더 나은 선택, 그리고 단 하나의 예제로도 강화 학습을 수행할 수 있음이 중요하다. 개발자들에게 이는 다음과 같이 의미한다: - 더 적은 데이터로도 앞선 모델을 초월할 수 있는 강화 미세 조정을 쉽게 수행할 수 있다. Adaptive Engine: 프로토타입에서 생산까지의 연결 1-샷 RLVR의 연구 결과는 인상적이지만, 이를 대규모로 적용하기 위해서는 적절한 도구와 인프라가 필요하다. 이때 Adaptive Engine이 도움이 된다. 적응(Adapt): 제한된 데이터로도 효과적인 강화 미세 조정을 수행해, 최첨단 모델을 초월할 수 있다. Adaptive은 몇 개의 예제와 검증 가능한 보상으로 오픈 모델에서 GRPO 또는 PPO를 쉽게 실행할 수 있도록 돕는다. 평가(Evaluate): 배포 전 확신이 필요하다. Adaptive은 개인화되고 실제 작업 환경에 맞춘 평가를 지원하여, 추상적인 벤치마크가 아닌 실제 워크로드에서 성능 향상을 벤치마킹할 수 있다. 제공(Serve): 빠르고 효율적인 추론으로, 클라우드, 엣지, 하이브리드 인프라 어디든 필요한 곳에 조정된 모델을 호스팅할 수 있다. 높은 성능, 낮은 지연 시간. 실험 초기부터 대규모 배포까지, Adaptive은 당신의 과정을 돕는다. 산업 전문가들 및 회사 프로필: - 이 연구는 마이크로소프트와 여러 학계 연구자들의 협력으로 이루어졌다. - Adaptive Engine은 이 기술을 실제 생산 환경에서 쉽게 적용할 수 있도록 지원하는 플랫폼이다. - 이 성과는 데이터 효율성을 크게 높이며, AI 개발의 비용과 시간을 줄일 수 있는 가능성을 제시한다.

한 예제로 강화학습 성능 극대화

Related Links