Command Palette
Search for a command to run...

초록
대규모 언어 모델(LLM) 기반 웹 에이전트는 지식 집약적인 작업에서 뛰어난 성능을 보이지만, ReAct과 같은 패러다임에서는 컨텍스트 창 제한으로 인해 한계에 부딪힌다. 다수의 실체와 복잡한 관계, 높은 불확실성을 포함하는 복잡한 질의는 완전한 해결에 도달하기 전에 빠르게 컨텍스트 예산을 소진하는 긴 검색 주기를 요구한다. 이 문제를 극복하기 위해, 우리는 주기적인 컨텍스트 요약을 통해 무제한 탐색을 가능하게 하는 새로운 패러다임인 ReSum을 제안한다. ReSum은 점차 확장되는 상호작용 이력들을 효율적인 추론 상태로 압축하여, 이전 발견에 대한 인지 능력을 유지하면서도 컨텍스트 제약을 회피한다. 패러다임 적응을 위해, 요약 조건 하에서의 추론에 익숙해지도록 도와주는 세그먼트 트래잭터리 학습과 이득 방송을 통합한 ReSum-GRPO를 제안한다. 다양한 규모의 웹 에이전트를 대상으로 세 가지 벤치마크에서 실시한 광범위한 실험 결과, ReSum은 ReAct 대비 평균 4.5%의 절대적 성능 향상을 달성하였으며, ReSum-GRPO 학습을 거친 후에는 최대 8.2%까지 추가적인 성능 향상이 이루어졌다. 특히, 단 1,000개의 학습 샘플만으로도 WebResummer-30B(= WebSailor-30B의 ReSum-GRPO 학습 버전)는 BrowseComp-zh에서 Pass@1이 33.3%, BrowseComp-en에서 18.3%를 기록하며 기존 오픈소스 웹 에이전트를 초월하였다.