2일 전

SSRL: 자기 탐색 강화 학습

Yuchen Fan, Kaiyan Zhang, Heng Zhou, Yuxin Zuo, Yanxu Chen, Yu Fu, Xinwei Long, Xuekai Zhu, Che Jiang, Yuchen Zhang, Li Kang, Gang Chen, Cheng Huang, Zhizhou He, Bingning Wang, Lei Bai, Ning Ding, Bowen Zhou
SSRL: 자기 탐색 강화 학습
초록

우리는 강화학습(RL)에서 에이전트 기반 검색 작업을 효율적인 시뮬레이터로 활용할 수 있는 대규모 언어모델(LLM)의 잠재력을 조사한다. 이를 통해 외부 검색 엔진과의 비용이 큰 상호작용에 대한 의존도를 줄일 수 있다. 이를 위해 우리는 구조화된 프롬프트와 반복 샘플링을 통해 LLM의 내재적 검색 능력을 정량화하였으며, 이를 '셀프서치(Self-Search)'라 명명한다. 실험 결과, LLM은 추론 예산에 따라 강력한 스케일링 특성을 보이며, 특히 도전적인 BrowseComp 작업을 포함한 질문-답변 기준에서 높은 pass@k 성능을 달성함을 확인하였다. 이러한 관측을 바탕으로, 포맷 기반 및 규칙 기반 보상 구조를 통해 LLM의 셀프서치 능력을 향상시키는 '셀프서치 강화학습(SSRL)'을 제안한다. SSRL은 외부 도구에 접근하지 않고도 모델이 내부적으로 지식 활용을 반복적으로 개선할 수 있도록 한다. 실증 평가를 통해 SSRL로 훈련된 정책 모델이 검색 기반 RL 훈련을 위한 비용 효율적이고 안정적인 환경을 제공함을 확인하였으며, 외부 검색 엔진에 대한 의존도를 줄이고, 실세계로의 안정적인 시뮬레이션-실제 전이(sim-to-real transfer)를 촉진함을 보였다. 본 연구에서 도출된 결론은 다음과 같다. 1) LLM은 고성능을 달성하기 위해 효과적으로 채굴할 수 있는 세계 지식을 보유하고 있다; 2) SSRL은 내부 지식을 활용함으로써 환각(Hallucination)을 줄이는 데의 가능성을 보여준다; 3) SSRL로 훈련된 모델은 추가적인 노력 없이 외부 검색 엔진과 원활하게 통합된다. 본 연구 결과는 LLM이 더 확장 가능한 RL 에이전트 훈련을 지원할 수 있는 잠재력을 강조한다.

SSRL: 자기 탐색 강화 학습 | 최신 연구 논문 | HyperAI초신경