10회를 넘어서: 대규모 비동기 강화학습을 통한 장기적 에이전트 탐색의 열림

최근 LLM 기반 에이전트의 발전은 외부 도구를 통합함으로써 복잡하고 지식 집약적인 작업을 처리하는 데 놀라운 능력을 보여주고 있다. 다양한 도구 중에서 검색 도구는 광범위한 외부 지식에 접근하는 데 핵심적인 역할을 한다. 그러나 오픈소스 에이전트는 여전히 모호한 질의를 해결하고 정확한 검색을 생성하며 검색 결과를 분석하고 철저하게 탐색할 수 있는 전문가 수준의 '검색 지능(Search Intelligence)'을 달성하지 못하고 있다. 기존 접근 방식은 확장성, 효율성, 데이터 품질 측면에서 한계를 보이고 있다. 예를 들어, 기존 온라인 강화학습(Reinforcement Learning, RL) 방법에서의 작고 제한된 턴 수(예: ≤10)는 복잡한 전략 학습을 제약한다. 본 논문은 검색 에이전트의 대규모 강화학습 훈련을 위한 오픈소스 프로젝트인 ASearcher를 제안한다. 본 연구의 주요 기여는 다음과 같다. (1) 장기적인 탐색을 가능하게 하면서도 높은 훈련 효율성을 유지하는 확장 가능한 완전 비동기 강화학습 훈련 기법. (2) 프롬프트 기반의 LLM 에이전트를 통해 자동으로 고품질이고 도전적인 질문-답변(QA) 쌍을 생성하여 대규모 QA 데이터셋을 구축하는 방법. 강화학습 훈련을 통해 제안한 프롬프트 기반 QwQ-32B 에이전트는 xBench와 GAIA에서 각각 평균 정확도@4(Avg@4) 46.7%, 20.8%의 성능 향상을 달성했다. 특히, 본 에이전트는 극단적인 장기 탐색 능력을 보였으며, 훈련 중 도구 호출 횟수가 40회를 초과하고 출력 토큰 수가 15만 개를 넘는 사례도 관찰되었다. 간단한 에이전트 설계와 외부 LLM 없이도 ASearcher-Web-QwQ는 xBench에서 Avg@4 42.1, GAIA에서 52.8의 성능을 기록하며 기존 오픈소스 32B 규모 에이전트를 모두 상회한다. 본 연구에서는 모델, 훈련 데이터, 코드를 모두 오픈소스로 공개하며, 관련 자료는 https://github.com/inclusionAI/ASearcher 에서 확인할 수 있다.