Command Palette
Search for a command to run...

초록
LLM 기반 웹 에이전트는 정보 탐색 분야에서 막대한 잠재력을 보여주고 있으나, 장기적 작업 수행 능력에서는 컨텍스트 관리에 대한 근본적인 트레이드오프로 인해 한계에 직면하고 있다. 기존의 ReAct 기반 에이전트는 노이즈가 많은 원시적인 작업 기록을 지속적으로 축적하면서 컨텍스트 포화 현상을 겪는 반면, 각 단계에서 전체 기록을 고정적으로 요약하는 방법은 중요한 세부 정보가 영구적으로 손실될 위험을 내포하고 있다. 이러한 문제를 해결하기 위해 우리는 인간의 인지 과정인 ‘회상적 통합(retrospective consolidation)’을 영감으로 삼아, 능동적인 컨텍스트 관리를 핵심으로 하는 새로운 에이전트 패러다임인 AgentFold를 제안한다. AgentFold는 기록을 단순히 채워나가는 수동적인 로그가 아니라, 능동적으로 조작하고 구성할 수 있는 동적 인지 작업공간으로 간주한다. 각 단계에서 에이전트는 ‘접기(folding)’ 연산을 학습하여, 다양한 스케일에서 과거의 작업 흐름을 효과적으로 관리한다. 이를 통해 세부적인 정보를 정밀하게 보존하는 미세한 요약을 수행할 수 있으며, 다단계 하위 작업 전체를 추상화하는 깊은 통합도 가능하다. 주요 벤치마크에서의 실험 결과는 매우 인상적이다. 지속적인 사전 훈련이나 강화학습 없이 단순한 감독 학습을 통해 훈련된 AgentFold-30B-A3B 모델은 BrowseComp에서 36.2%, BrowseComp-ZH에서 47.3%의 성능을 기록했다. 특히 이 성능은 규모가 훨씬 큰 오픈소스 모델(예: DeepSeek-V3.1-671B-A37B)을 능가하거나 동등하게 이기며, OpenAI의 o4-mini와 같은 선도적인 프로피리에타리 에이전트를도 초월하는 결과를 보였다.