2달 전

최대 엔트로피 강화 학습을 위한 에너지 기반 정규화 흐름

Chen-Hao Chao; Chien Feng; Wei-Fang Sun; Cheng-Kuang Lee; Simon See; Chun-Yi Lee
최대 엔트로피 강화 학습을 위한 에너지 기반 정규화 흐름
초록

연속 행동 공간을 위한 기존 최대 엔트로피(MaxEnt) 강화 학습(RL) 방법은 일반적으로 액터-크리틱 프레임워크를 기반으로 하며, 정책 평가와 정책 개선 단계를 번갈아 가며 최적화됩니다. 정책 평가 단계에서는 크리틱이 소프트 Q-함수를 포착하도록 업데이트됩니다. 정책 개선 단계에서는 액터가 업데이트된 소프트 Q-함수에 따라 조정됩니다. 본 논문에서는 에너지 기반 정규화 흐름(EBFlow)을 사용하여 모델링된 새로운 MaxEnt RL 프레임워크를 소개합니다. 이 프레임워크는 정책 평가 단계와 정책 개선 단계를 통합하여 하나의 목적 함수 훈련 과정을 생성합니다. 우리의 방법은 몬테카를로 근사 없이 정책 평가 목표에 사용되는 소프트 가치 함수의 계산을 가능하게 합니다. 또한, 이 설계는 다중 모드 행동 분포의 모델링을 지원하면서 효율적인 행동 샘플링을 용이하게 합니다. 우리의 방법의 성능을 평가하기 위해, MuJoCo 벤치마크 스위트와 Omniverse Isaac Gym에서 시뮬레이션된 여러 고차원 로봇 작업에서 실험을 수행했습니다. 평가 결과는 우리의 방법이 널리 채택된 대표적인 기준모델들보다 우수한 성능을 달성한다는 것을 보여줍니다.