12일 전

에이전트 라이트닝: 강화 학습을 활용해 어떤 AI 에이전트도 훈련시키기

Xufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao, Dongsheng Li, et al
에이전트 라이트닝: 강화 학습을 활용해 어떤 AI 에이전트도 훈련시키기
초록

우리는 모든 AI 에이전트에 대해 강화학습(RL) 기반의 대규모 언어모델(LLM) 훈련을 가능하게 하는 유연하고 확장 가능한 프레임워크인 Agent Lightning을 제안한다. 기존의 방법들이 RL 훈련을 에이전트에 강하게 결합하거나 마스킹을 사용한 시퀀스 연결에 의존하는 것과 달리, Agent Lightning은 에이전트 실행과 훈련 간 완전한 분리(디커플링)를 실현함으로써, 다양한 방식(예: LangChain, OpenAI Agents SDK, AutoGen 프레임워크 사용 또는 자체 구현 등)으로 개발된 기존 에이전트와 거의 코드 수정 없이 원활하게 통합할 수 있다. 에이전트 실행을 마르코프 결정 과정(Markov Decision Process)으로 정의함으로써, 통합된 데이터 인터페이스를 제안하고, 보상 할당 모듈을 포함한 계층적 강화학습 알고리즘인 LightningRL을 제안한다. 이를 통해 어떤 에이전트든 생성한 트래잭션을 훈련 전이(transition)로 분해할 수 있으며, 이는 다중 에이전트 시나리오 및 동적 워크플로우와 같은 복잡한 상호작용 로직을 강화학습이 처리할 수 있도록 한다. 시스템 설계 측면에서는 훈련-에이전트 분리(Training-Agent Disaggregation) 아키텍처를 도입하고, 에이전트 런타임에 관측 가능성(observability) 프레임워크를 통합하여 표준화된 에이전트 피니트유닝 인터페이스를 제공한다. 텍스트-to-SQL, 검색 기반 생성(retrieval-augmented generation), 수학 도구 활용 등 다양한 작업에서의 실험 결과는 안정적이고 지속적인 성능 향상을 보여주며, 이 프레임워크가 실제 세계의 에이전트 훈련 및 배포에 활용될 수 있는 잠재력을 입증한다.