HyperAIHyperAI

Command Palette

Search for a command to run...

平均速度戦略(MVP)

日付

14時間前

組織

香港大学
清華大学
カリフォルニア大学

平均速度ポリシー(MVP)は、清華大学(車両交通学院および人工知能学院)、カリフォルニア大学バークレー校のBAIR(百度人工知能研究所)、香港大学の研究チームによって共同で提案されました。この研究は、2026年に開催された国際学習表現会議(ICLR 2026)で会議論文として正式に発表されました。関連する研究結果は、論文「瞬間速度制約付き平均流ポリシーによるワンステップアクション生成”。

MVPは、強化学習のための新しい生成ポリシーであり、「平均速度場」をモデル化することで最速の単一ステップ動作生成を実現し、複数ステップサンプリングの計算オーバーヘッドを完全に排除します。モデルに明示的な境界条件がないという課題に対処するため、研究チームは「瞬間速度制約(IVC)」を導入し、学習精度とポリシーの表現力を効果的に向上させました。実際のパフォーマンスでは、MVPはトレーニングと推論の速度を大幅に向上させ(平均単一ステップ推論時間はわずか10.93ミリ秒)、RobomimicとOGBenchの複雑なロボット操作タスクにおいて、最先端の平均成功率0.88を達成し、この分野の最先端に到達しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています