초록

강화학습(RL)은 대규모 언어 모델(LLM) 에이전트가 환경과 상호작용하고, 다단계·장기적 목표를 해결할 수 있도록 훈련하는 데 기여해왔다. 그러나 RL로 훈련된 에이전트는 적극적인 탐색이 필요한 과제에서는 여전히 어려움을 겪하며, 시도-오류 경험을 효율적으로 학습하는 데 한계가 있다. 본 논문에서는 LLM 에이전트가 테스트 시 환경 피드백을 기반으로 적극적으로 탐색하고 학습할 수 있도록 하는 일반적인 메타-강화학습(Meta-RL) 프레임워크인 LaMer을 제안한다. LaMer는 두 가지 핵심 구성 요소로 구성된다: (i) 탐색을 촉진하고 장기적 보상 최적화를 가능하게 하는 에피소드 간 훈련 프레임워크; (ii) 반성(reflection)을 통한 컨텍스트 내 정책 적응 기능으로, 에이전트가 기울기 업데이트 없이 과제 피드백 신호로부터 정책을 적응할 수 있도록 한다. 다양한 환경에서 수행된 실험 결과, LaMer는 RL 기반 기준 모델 대비 성능을 크게 향상시켰으며, Sokoban, MineSweeper, Webshop에서 각각 11%, 14%, 19%의 성능 향상을 기록했다. 또한, RL로 훈련된 에이전트에 비해 더 도전적인 또는 사전에 경험하지 못한 과제에 대해 더 우수한 일반화 성능을 보였다. 종합적으로, 본 연구 결과는 메타-강화학습이 언어 기반 에이전트에 탐색 능력을 유도하는 체계적인 접근법임을 보여주며, 학습된 탐색 전략을 통해 새로운 환경에 더 견고하게 적응할 수 있음을 시사한다.

소스 PDF