Command Palette

Search for a command to run...

6일 전

ReinFlow: 온라인 강화 학습을 통한 플로우 매칭 정책의 피니어 투닝

Tonghe Zhang Chao Yu Sichang Su Yu Wang

ReinFlow: 온라인 강화 학습을 통한 플로우 매칭 정책의 피니어 투닝

초록

우리는 연속적인 로봇 제어를 위한 흐름 매칭 정책의 일련을 미세 조정할 수 있는 간단하면서도 효과적인 온라인 강화학습(RL) 프레임워크인 ReinFlow을 제안한다. 엄밀한 강화학습 이론에서 유도된 ReinFlow은 흐름 정책의 결정론적 경로에 학습 가능한 노이즈를 주입함으로써, 흐름을 이산 시간 마르코프 과정으로 변환하여 정확하고 간단한 가능도 계산을 가능하게 한다. 이 변환은 탐색을 촉진하고 학습의 안정성을 보장하며, Rectified Flow[35] 및 Shortcut Model[19]을 포함한 다양한 흐름 모델 변형을 매우 적은 수의 디노이징 단계, 심지어 단일 디노이징 단계에서도 성공적으로 미세 조정할 수 있도록 한다. 우리는 대표적인 보행 및 조작 작업에서 ReinFlow을 평가하였으며, 시각 입력과 희박한 보상이 있는 장기 계획 문제를 포함한다. 어려운 다리형 보행 작업에서 Rectified Flow 정책은 미세 조정 후 평균 135.36%의 에피소드 보상 증가를 기록하였으며, 디노이징 단계 수를 절감하고, 최첨단 확산 강화학습 미세 조정 방법인 DPPO[43]에 비해 평균 82.63%의 월드 타임을 절약하였다. ReinFlow을 사용하여 미세 조정한 Shortcut Model 정책은 상태 및 시각 기반 조작 작업에서 평균 40.34%의 성공률 증가를 달성하였으며, 4단계 또는 단일 디노이징 단계에서도 기존의 미세 조정된 DDIM 정책과 유사한 성능을 보였고, 평균 23.20%의 계산 시간 절약을 실현하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
ReinFlow: 온라인 강화 학습을 통한 플로우 매칭 정책의 피니어 투닝 | 연구 논문 | HyperAI초신경