Command Palette

Search for a command to run...

한 달 전

DeepSearch: 몬테카를로 트리 탐색을 통한 검증 가능한 보상으로 강화학습의 한계 극복

Fang Wu Weihao Xuan Heli Qi Ximing Lu Aaron Tu Li Erran Li Yejin ChoiRetry

DeepSearch: 몬테카를로 트리 탐색을 통한 검증 가능한 보상으로 강화학습의 한계 극복

초록

비록 강화학습 기반 추론 개선(Reinforcement Learning with Verifiable Rewards, RLVR)이 대규모 언어모델(LLM)의 고급 추론 능력 개발에 필수적인 구성 요소로 자리 잡았지만, 최근 연구들은 수천 번에 이르는 최적화 단계 이후에도 성능 향상이 정체되는 현상을 보고하고 있다. 이는 계산 자원 투입이 증가함에도 불구하고 성능 향상 폭이 현저히 감소하는 문제로 나타나며, 이는 현재 RLVR 기법이 내재하는 탐색 패턴의 희소성에서 기인한다. 즉, 모델이 제한된 시뮬레이션(롤아웃)만을 사용함으로써 핵심적인 추론 경로를 놓치거나 해답 공간에 대한 체계적인 탐색을 수행하지 못한다는 점이 핵심 원인이다. 본 연구에서는 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)을 RLVR 학습 과정에 직접 통합한 ‘DeepSearch’라는 프레임워크를 제안한다. 이는 기존 방법이 트리 탐색을 추론 단계에서만 활용하는 반면, DeepSearch는 구조화된 탐색을 학습 루프 내에 내재화함으로써 추론 단계별로 체계적인 탐색과 세밀한 보상 할당이 가능하게 한다. 학습 중 탐색을 통해 DeepSearch는 장기적인 학습 단계에 걸쳐 성능 향상이 둔화되는 근본적인 한계인 ‘불충분한 탐색’ 문제를 해결한다. 본 연구의 주요 기여는 다음과 같다: (1) 탐색 트리 전체에서 유망한 노드를 우선적으로 선택하는 글로벌 프론트리어 선택 전략, (2) 엔트로피 기반 가이던스를 활용해 신뢰할 수 있는 추론 경로를 식별하여 지도 학습에 활용하는 전략, (3) 해답 캐싱을 통한 적응형 리플레이 버퍼 학습을 통한 효율성 향상. 수학적 추론 벤치마크에서의 실험 결과, DeepSearch는 평균 정확도 62.95%를 달성하며, 15억 파라미터 규모의 추론 모델 기준으로 새로운 최고 성능(SOTA)을 수립하였다. 이는 기존의 장기간 학습 기반 접근 대비 GPU 시간을 5.7배 절약한 성과이다. 이러한 결과는 단순한 계산력 확장보다 전략적 탐색의 중요성을 입증하며, 알고리즘적 혁신이 RLVR 기법의 발전에 미치는 잠재력을 보여준다. DeepSearch는 장기적인 계산 투자에 의존하는 방식이 아니라 체계적인 탐색을 통해 추론 능력을 확장하는 새로운 방향을 제시한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
DeepSearch: 몬테카를로 트리 탐색을 통한 검증 가능한 보상으로 강화학습의 한계 극복 | 연구 논문 | HyperAI초신경