하루 전

AgentFly: LLM 에이전트를 위한 편집 없이 LLM을 편집하지 않고서도 미세조정하기

Huichi Zhou, Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang, Jun Wang
AgentFly: LLM 에이전트를 위한 편집 없이 LLM을 편집하지 않고서도 미세조정하기
초록

본 논문에서는 기존의 대규모 언어 모델(LLM) 미세조정(fine-tuning) 없이도 적응형 LLM 에이전트를 지속적으로 학습할 수 있는 새로운 학습 패러다임을 제안한다. 기존의 접근 방식은 일반적으로 정적인 수작업 반성 워크플로우에 의존하는 유연성 부족한 방법이거나, LLM 모델 파라미터의 기울기 업데이트를 요구하는 계산 비용이 큰 방식이다. 반면에, 본 연구에서는 메모리 기반 온라인 강화학습을 통해 저비용의 지속적 적응을 가능하게 하는 방법을 제시한다. 이를 메모리 증강 마르코프 결정 과정(M-MDP, Memory-augmented Markov Decision Process)으로 수학적으로 정의하며, 행동 결정을 안내하기 위한 신경망 기반 사례 선택 정책을 도입한다. 과거 경험은 에피소딕 메모리(episodic memory)에 저장되며, 이는 미분 가능한 형태이거나 비매개변수적 형태일 수 있다. 정책은 환경 피드백을 기반으로 메모리 재작성 메커니즘을 통해 지속적으로 갱신되며, 정책 개선은 효율적인 메모리 읽기(검색)를 통해 달성된다. 제안하는 에이전트 모델은 심층 연구(deep research) 환경에 적용된 AgentFly로 구현되었으며, GAIA 검증 세트에서 87.88%의 Pass@3 성능으로 상위 1위를 기록했고, 테스트 세트에서는 79.40%의 성능을 달성하였다. DeepResearcher 데이터셋에서는 F1 점수가 66.6%, PM 점수가 80.4%로, 기존의 최고 성능을 기록한 학습 기반 방법보다 우수한 성능을 보였다. 특히 사례 기반 메모리는 분포 외(out-of-distribution) 작업에서 4.7%에서 9.6%까지 절대적인 성능 향상을 제공하였다. 본 연구는 기울기 업데이트 없이도 지속적이고 실시간으로 학습이 가능한 일반화된 LLM 에이전트를 개발하는 확장성 있고 효율적인 경로를 제시하며, 머신러닝의 발전을 개방형 기술 습득과 심층 연구 시나리오로 나아가게 한다. 코드는 다음 링크에서 공개되어 있다: https://github.com/Agent-on-the-Fly/AgentFly.