Command Palette

Search for a command to run...

9일 전

SAC 플로우: 속도 재파라미터화된 순차 모델링을 통한 샘플 효율적인 기반 플로우 정책 강화 학습

Yixian Zhang Shu'ang Yu Tonghe Zhang Mo Guang Haojia Hui Kaiwen Long Yu Wang Chao Yu Wenbo Ding

SAC 플로우: 속도 재파라미터화된 순차 모델링을 통한 샘플 효율적인 기반 플로우 정책 강화 학습

초록

정책을 흐름 기반으로 표현적으로 학습하는 과정에서, 다단계 행동 샘플링 과정에서 발생하는 기울기 이상 현상으로 인해 비정책 기반 강화학습은 전통적으로 불안정하다. 본 연구에서는 이러한 불안정성의 근본 원인을 밝혀냈다. 즉, 흐름 롤아웃은 대수적으로 잔차 순환 계산과 동치이며, 이로 인해 RNN과 마찬가지로 기울기 소실 및 기울기 폭발 현상에 취약하다는 점을 확인하였다. 이를 해결하기 위해 현대적 순차 모델의 원리를 활용하여 속도 네트워크를 재구성하였으며, 두 가지 안정적인 아키텍처를 제안한다. 첫째, 게이트 구조를 포함한 속도를 갖는 Flow-G이며, 둘째, 디코딩된 속도를 사용하는 Flow-T이다. 또한, 노이즈 증강 롤아웃을 기반으로 한 실용적인 SAC 기반 알고리즘을 개발하여 이러한 정책의 직접적인 엔드투엔드 학습을 가능하게 하였다. 제안하는 방법은 초기 학습부터 오프라인에서 온라인으로의 전이 학습까지 모두 지원하며, 연속 제어 및 로봇 조작 벤치마크에서 최신 기준 성능을 달성하여 기존의 정책 증류(policy distillation)나 대체 목적 함수(surrogate objectives)와 같은 일반적인 보완 기법의 필요성을 제거한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
SAC 플로우: 속도 재파라미터화된 순차 모델링을 통한 샘플 효율적인 기반 플로우 정책 강화 학습 | 연구 논문 | HyperAI초신경