Command Palette

Search for a command to run...

6日前

ReinFlow:オンライン強化学習を用いたフローマッチング方策のファインチューニング

Tonghe Zhang Chao Yu Sichang Su Yu Wang

ReinFlow:オンライン強化学習を用いたフローマッチング方策のファインチューニング

要約

我々は、連続的なロボット制御に適した、一連のフローマッチング方策の微調整を可能にする、シンプルでありながら効果的なオンライン強化学習(RL)フレームワーク「ReinFlow」を提案する。ReinFlowは厳密なRL理論に基づき、フローポリシーの決定論的経路に学習可能なノイズを導入することで、フローを離散時間マルコフ過程に変換する。この変換により、尤度の正確かつ直感的な計算が可能となり、探索の促進と学習の安定性が確保される。これにより、ReinFlowはRectified Flow [35] や Shortcut Models [19] といった多様なフローモデルのバリエーションを、極めて少ない、あるいは1ステップのノイズ除去(denoising)ステップでも効果的に微調整可能となる。我々は、視覚入力とスパース報酬を伴う長時間スケールの計画を含む、代表的な移動および操作タスクにおいてReinFlowを評価した。困難な脚部移動タスクにおいて、微調整後のRectified Flow方策のエピソード報酬は平均で135.36%向上し、ノイズ除去ステップ数を削減するとともに、最先端の拡散型強化学習微調整手法DPPO [43] と比較して、実行時間(wall time)を82.63%削減した。また、状態および視覚入力に基づく操作タスクにおいて、ReinFlowによる微調整によりShortcut Model方策の成功確率は、4ステップあるいは1ステップのノイズ除去条件下で平均で40.34%向上し、微調整されたDDIM方策と同等の性能を達成しつつ、平均23.20%の計算時間を削減した。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ReinFlow:オンライン強化学習を用いたフローマッチング方策のファインチューニング | 論文 | HyperAI超神経