SSRL: 자기 탐색 강화 학습

우리는 강화학습(RL)에서 에이전트 기반 검색 작업을 효율적인 시뮬레이터로 활용할 수 있는 대규모 언어모델(LLM)의 잠재력을 조사한다. 이를 통해 외부 검색 엔진과의 비용이 큰 상호작용에 대한 의존도를 줄일 수 있다. 이를 위해 우리는 구조화된 프롬프트와 반복 샘플링을 통해 LLM의 내재적 검색 능력을 정량화하였으며, 이를 '셀프서치(Self-Search)'라 명명한다. 실험 결과, LLM은 추론 예산에 따라 강력한 스케일링 특성을 보이며, 특히 도전적인 BrowseComp 작업을 포함한 질문-답변 기준에서 높은 pass@k 성능을 달성함을 확인하였다. 이러한 관측을 바탕으로, 포맷 기반 및 규칙 기반 보상 구조를 통해 LLM의 셀프서치 능력을 향상시키는 '셀프서치 강화학습(SSRL)'을 제안한다. SSRL은 외부 도구에 접근하지 않고도 모델이 내부적으로 지식 활용을 반복적으로 개선할 수 있도록 한다. 실증 평가를 통해 SSRL로 훈련된 정책 모델이 검색 기반 RL 훈련을 위한 비용 효율적이고 안정적인 환경을 제공함을 확인하였으며, 외부 검색 엔진에 대한 의존도를 줄이고, 실세계로의 안정적인 시뮬레이션-실제 전이(sim-to-real transfer)를 촉진함을 보였다. 본 연구에서 도출된 결론은 다음과 같다. 1) LLM은 고성능을 달성하기 위해 효과적으로 채굴할 수 있는 세계 지식을 보유하고 있다; 2) SSRL은 내부 지식을 활용함으로써 환각(Hallucination)을 줄이는 데의 가능성을 보여준다; 3) SSRL로 훈련된 모델은 추가적인 노력 없이 외부 검색 엔진과 원활하게 통합된다. 본 연구 결과는 LLM이 더 확장 가능한 RL 에이전트 훈련을 지원할 수 있는 잠재력을 강조한다.