HyperAI초신경
하루 전

업무적 강화 정책 최적화

Guanting Dong, Hangyu Mao, Kai Ma, Licheng Bao, Yifei Chen, Zhongyuan Wang, Zhongxia Chen, Jiazhen Du, Huiyang Wang, Fuzheng Zhang, Guorui Zhou, Yutao Zhu, Ji-Rong Wen, Zhicheng Dou
업무적 강화 정책 최적화
초록

대규모 검증 가능한 보상(Verifiable Rewards)을 사용한 강화학습(RLVR)은 단일 단계 추론 작업에서 대규모 언어 모델(LLMs)의 잠재력을 활용하는 데 효과성을 입증했습니다. 실제 추론 환경에서는 LLM이 작업 수행 과정에서 외부 도구를 활용할 수 있는 경우가 많습니다. 그러나 현재 강화학습(RL) 알고리즘은 모델의 내재적인 장기적 추론 능력과 다단계 도구 상호작용 능력 사이의 균형을 충분히 잡지 못하고 있습니다. 이 격차를 메우기 위해, 우리는 다단계 LLM 기반 에이전트를 훈련하기 위해 설계된 새로운 에이전트 기반 강화학습 알고리즘인 Agentic Reinforced Policy Optimization (ARPO)을 제안합니다. 초기 실험을 통해, LLM이 외부 도구와 상호작용한 직후 생성된 토큰의 엔트로피 분포가 증가하는 것으로 나타나, 이는 매우 불확실한 행동을 보인다는 것을 확인할 수 있었습니다. 이러한 관찰에 기반해 ARPO는 엔트로피 기반의 적응형 롤아웃 메커니즘을 도입하여, 전체 경로 샘플링과 단계 수준 샘플링 사이의 동적 균형을 유지함으로써, 도구 사용 후 고불확실성 단계에서의 탐색을 촉진합니다. 또한, ARPO는 우위 분배 추정(advantage attribution estimation)을 통합하여, LLM이 단계별 도구 사용 상호작용에서 우위 차이를 내면화할 수 있도록 합니다. 계산적 추론, 지식 추론, 깊은 검색 분야에서의 13개 어려운 기준(testbed)에 대한 실험 결과를 통해, ARPO가 경로 수준 RL 알고리즘보다 우수함을 입증했습니다. 특히, 기존 방법에 비해 필요한 도구 사용 예산의 절반만으로도 성능 향상을 달성할 수 있었으며, 이는 LLM 기반 에이전트가 실시간 동적 환경과의 일치를 달성하는 데 확장 가능한 솔루션을 제공합니다. 우리의 코드와 데이터셋은 https://github.com/dongguanting/ARPO에서 공개됩니다.