Command Palette

Search for a command to run...

15일 전

IterResearch: 마코비안 상태 재구성에 의한 장기 수평 에이전트의 재고찰

IterResearch: 마코비안 상태 재구성에 의한 장기 수평 에이전트의 재고찰

초록

최근 딥 리서치 에이전트의 발전은 외부 자원에 대한 동적 추론을 통해 자율적인 지식 구축이 가능할 수 있음을 보여주고 있다. 그러나 기존의 접근 방식은 모든 정보를 하나의 확장되는 컨텍스트 창 안에 누적하는 단일 컨텍스트 패러다임에 의존하여, 컨텍스트 과부하와 노이즈 오염이 발생함으로써 장기적 과제에서의 성능이 제한된다. 본 연구에서는 전략적 워크스페이스 재구성과 함께 장기적 탐색을 마르코프 결정 과정(Markov Decision Process)으로 재정의하는 새로운 반복적 딥 리서치 패러다임인 IterResearch를 제안한다. 본 방식은 진화하는 보고서를 메모리로 유지하고 주기적으로 통찰을 통합함으로써, 임의의 탐색 깊이에 관계없이 일관된 추론 능력을 유지한다. 또한, 기하학적 보상 할인을 통한 효율적인 탐색을 유도하는 효율성 인지 정책 최적화(Efficiency-Aware Policy Optimization, EAPO)라는 강화학습 프레임워크를 개발하여, 적응형 다운샘플링을 통해 안정적인 분산 학습을 가능하게 한다. 광범위한 실험을 통해 IterResearch는 기존 오픈소스 에이전트 대비 6개 벤치마크에서 평균 +14.5pp의 성능 향상을 달성하며, 최전방의 사적 시스템과의 격차를 좁히는 데 성공했다. 특히 본 패러다임은 사전에 예상할 수 없을 정도로 놀라운 상호작용 확장성(2048개의 상호작용까지)을 보이며, 성능 향상이 극대화되며(3.5% → 42.5%) 전방의 모델을 대상으로 ReAct 대비 최대 19.2pp의 성능 향상을 이끌어냈다. 이러한 결과는 IterResearch가 장기적 추론을 위한 다용도 솔루션으로서, 훈련된 에이전트로도, 전방 모델을 위한 효과적인 프롬프팅 전략으로도 뛰어난 성능을 발휘할 수 있음을 시사한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
IterResearch: 마코비안 상태 재구성에 의한 장기 수평 에이전트의 재고찰 | 연구 논문 | HyperAI초신경