Command Palette

Search for a command to run...

8일 전

DeepAgent: 확장 가능한 도구 세트를 갖춘 일반적 추론 에이전트

DeepAgent: 확장 가능한 도구 세트를 갖춘 일반적 추론 에이전트

초록

대규모 추론 모델은 강력한 문제 해결 능력을 보여주었으나, 실세계 과제는 종종 외부 도구와 장기적 상호작용을 필요로 한다. 기존의 에이전트 프레임워크는 일반적으로 사전 정의된 워크플로우를 따르기 때문에 자율적이고 전반적인 과제 완수 능력이 제한된다. 본 논문에서는 단일하고 일관된 추론 과정 내에서 자율적 사고, 도구 탐색, 행동 실행을 수행하는 엔드투엔드(End-to-End) 심층 추론 에이전트인 DeepAgent를 제안한다. 장기적 상호작용의 도전 과제, 특히 다수의 도구 호출로 인한 컨텍스트 길이 급증과 상호작용 이력의 누적 문제를 해결하기 위해, 과거 상호작용을 구조화된 에피소드 메모리, 워킹 메모리, 도구 메모리로 압축하는 자율적 메모리 폴딩(Memory Folding) 메커니즘을 도입한다. 이는 오류 누적을 줄이면서도 핵심 정보를 유지하는 데 기여한다. 일반적인 도구 사용을 효율적이고 안정적으로 학습하기 위해, LLM 시뮬레이션 API를 활용하고 도구 호출 토큰에 대한 세밀한 보상 할당(advantage attribution)을 적용하는 엔드투엔드 강화학습 전략인 ToolPO를 개발하였다. ToolBench, API-Bank, TMDB, Spotify, ToolHop과 같은 일반적인 도구 사용 과제 및 ALFWorld, WebShop, GAIA, HLE와 같은 하류 응용 과제를 포함한 8개의 벤치마크에서 실시한 광범위한 실험 결과, DeepAgent는 레이블링된 도구 및 오픈셋 도구 검색 시나리오를 막론하고 기존의 베이스라인을 일관되게 상회함을 입증하였다. 본 연구는 실세계 응용을 위한 더 일반적이고 강력한 에이전트로 나아가는 한 걸음이다. 코드와 데모는 https://github.com/RUC-NLPIR/DeepAgent 에서 확인할 수 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
DeepAgent: 확장 가능한 도구 세트를 갖춘 일반적 추론 에이전트 | 연구 논문 | HyperAI초신경