Command Palette
Search for a command to run...
Tonghe Zhang Chao Yu Sichang Su Yu Wang

초록
우리는 연속적인 로봇 제어를 위한 흐름 매칭 정책의 일련을 미세 조정할 수 있는 간단하면서도 효과적인 온라인 강화학습(RL) 프레임워크인 ReinFlow을 제안한다. 엄밀한 강화학습 이론에서 유도된 ReinFlow은 흐름 정책의 결정론적 경로에 학습 가능한 노이즈를 주입함으로써, 흐름을 이산 시간 마르코프 과정으로 변환하여 정확하고 간단한 가능도 계산을 가능하게 한다. 이 변환은 탐색을 촉진하고 학습의 안정성을 보장하며, Rectified Flow[35] 및 Shortcut Model[19]을 포함한 다양한 흐름 모델 변형을 매우 적은 수의 디노이징 단계, 심지어 단일 디노이징 단계에서도 성공적으로 미세 조정할 수 있도록 한다. 우리는 대표적인 보행 및 조작 작업에서 ReinFlow을 평가하였으며, 시각 입력과 희박한 보상이 있는 장기 계획 문제를 포함한다. 어려운 다리형 보행 작업에서 Rectified Flow 정책은 미세 조정 후 평균 135.36%의 에피소드 보상 증가를 기록하였으며, 디노이징 단계 수를 절감하고, 최첨단 확산 강화학습 미세 조정 방법인 DPPO[43]에 비해 평균 82.63%의 월드 타임을 절약하였다. ReinFlow을 사용하여 미세 조정한 Shortcut Model 정책은 상태 및 시각 기반 조작 작업에서 평균 40.34%의 성공률 증가를 달성하였으며, 4단계 또는 단일 디노이징 단계에서도 기존의 미세 조정된 DDIM 정책과 유사한 성능을 보였고, 평균 23.20%의 계산 시간 절약을 실현하였다.