Command Palette

Search for a command to run...

한 달 전

EPO: 엔트로피 정규화 정책 최적화를 통한 LLM 에이전트 강화 학습

Xu Wujiang Wentian Zhao Zhenting Wang Li Yu-Jhe Jin Can Jin Mingyu Mei Kai Wan Kun Metaxas Dimitris

EPO: 엔트로피 정규화 정책 최적화를 통한 LLM 에이전트 강화 학습

초록

단일 작업을 완료하기 위해 에피소드 내에서 30회 이상의 상호작용이 필요하는 다단계 환경에서 희박한 보상(reward)을 가진 강화학습 환경에서 LLM 에이전트를 훈련시키는 것은 핵심적인 도전 과제이다. 우리는 이러한 환경에 고유한 치명적인 실패 유형을 식별하였다: 탐색-이용 타격 연쇄 실패(Exploration-Exploitation Cascade Failure). 이 연쇄 실패는 초기 단계에서 정책의 조기 수렴(premature convergence)으로 시작되며, 희박한 피드백으로 인해 에이전트가 잘못된, 저 엔트로피 전략에 고착된다. 이후 후기 단계에서는 정책 붕괴(policy collapse)에 빠지게 되는데, 이 시점에서 기존의 엔트로피 정규화 기법은 오히려 역효과를 미치며, 교란적인 탐색을 유도하여 훈련을 불안정하게 만든다. 우리는 이 실패 사이클을 깨는 데 효과적인 일반화된 프레임워크인 엔트로피 정규화 정책 최적화(Entropy-regularized Policy Optimization, EPO)를 제안한다. EPO는 세 가지 상호보완적인 메커니즘을 통해 이를 달성한다: (1) 다단계 환경에서 엔트로피 정규화를 도입하여 탐색을 향상시키는 방식, (2) 정책 엔트로피가 과거 평균값 내에 제한되도록 보장하는 엔트로피 스무딩 정규화 항을 도입하여 급격한 변동을 방지하는 방식, (3) 훈련 단계에 따라 탐색과 이용의 균형을 자동 조절하는 적응형 단계 기반 가중치 방식. 분석을 통해 EPO가 엔트로피 분산을 단조 감소시키면서도 수렴성을 유지함을 입증하였다. EPO는 ScienceWorld에서 최대 152%의 성능 향상을, ALFWorld에서는 최대 19.8%의 성능 향상을 달성하였다. 본 연구는 다단계 희박 보상 환경에서 전통적인 강화학습과는 근본적으로 다른 엔트로피 제어 전략이 필요함을 보여주며, LLM 에이전트 훈련에 넓은 의미를 지닌다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
EPO: 엔트로피 정규화 정책 최적화를 통한 LLM 에이전트 강화 학습 | 연구 논문 | HyperAI초신경