초록

검증 가능한 보상과 함께한 강화학습(RLVR, Reinforcement Learning with Verifiable Rewards)은 LLM 기반 에이전트를 훈련하는 주류 기술로 부상하고 있다. 그러나 RLVR는 정확한 보상을 제공하기 위해 철저히 설계된 작업 쿼리와 그에 해당하는 참값(ground-truth) 답변에 크게 의존하며, 이는 막대한 인적 노력이 수반되며 특히 에이전트 기반 시나리오에서 강화학습의 확장성에 장애를 초래한다. 최근 몇몇 연구들이 작업 생성(task synthesis) 방법을 탐색하고 있으나, 생성된 에이전트 기반 작업의 난이도를 효과적으로 제어하여 실질적인 강화학습 훈련 이점을 제공하는 것은 여전히 어려운 과제이다. 더 높은 확장성을 갖춘 에이전트 기반 RLVR를 달성하기 위해, 우리는 심층 탐색 에이전트를 위한 자가 대결(self-play) 훈련을 탐구한다. 이 과정에서 학습 중인 LLM은 다단계 검색 엔진 호출을 수행하며, 동시에 작업 제안자와 문제 해결자라는 두 역할을 동시에 수행한다. 작업 제안자는 정의가 명확하고 난이도가 점차 증가하는 심층 탐색 쿼리를 생성하는 것을 목표로 하며, 문제 해결자는 생성된 검색 쿼리를 처리하고 정확한 답변 예측을 출력한다. 각 생성된 검색 쿼리에 대해 정확한 참값을 보장하기 위해, 제안자의 탐색 경로에서 수집한 모든 검색 결과를 외부 지식으로 활용한 후, 검색 증강 생성(RAG, Retrieval-Augmented Generation)을 수행하여, 주어진 모든 검색 문서를 바탕으로 제안된 쿼리가 올바르게 답변될 수 있는지 검증한다. 이러한 검색 자가 대결(SSP, Search Self-Play) 게임에서는 제안자와 해결자가 경쟁과 협업을 통해 함께 에이전트의 능력을 진화시킨다. 대규모 실험 결과를 통해, SSP가 초기 훈련(From-scratch) 및 지속적 강화학습(Continuous RL) 설정 모두에서 어떤 감독 없이도 다양한 벤치마크에서 탐색 에이전트의 성능을 일관되게 크게 향상시킬 수 있음을 확인하였다.

소스 PDF 코드 보기