日付

3ヶ月前

組織

Paper URL

openreview.net

タグ

強化学習

平均速度ポリシー（MVP）は、清華大学（車両交通学部および人工知能学部）、カリフォルニア大学バークレー校人工知能研究所（BAIR）、香港大学の研究チームによって共同で提案されました。関連する研究結果は、論文「瞬間速度制約付き平均流ポリシーによるワンステップアクション生成「」は、ICLR 2026に採択されました。

MVPは、強化学習のための新しい生成ポリシーであり、「平均速度場」をモデル化することで最速の単一ステップ動作生成を実現し、複数ステップサンプリングの計算オーバーヘッドを完全に排除します。モデルに明示的な境界条件がないという課題に対処するため、研究チームは「瞬間速度制約（IVC）」を導入し、学習精度とポリシーの表現力を効果的に向上させました。実際のパフォーマンスでは、MVPはトレーニングと推論の速度を大幅に向上させ（平均単一ステップ推論時間はわずか10.93ミリ秒）、RobomimicとOGBenchの複雑なロボット操作タスクにおいて、最先端の平均成功率0.88を達成し、この分野の最先端に到達しました。

ワールドアクションモデルWAM

WAMは、身体化された知能とロボット工学の分野における、新しいAI基盤モデルアーキテクチャです。

2ヶ月前

ピークリターン貪欲スライス

PRGSは、オフライン強化学習モデルが高報酬の経験を繋ぎ合わせる能力を大幅に向上させる。

3ヶ月前

空間理論

空間理論とは、知的エージェントが不完全な情報環境において、能動的な探索を通じて空間的な信念を構築、更新、活用する能力に関する枠組みを指す。

3ヶ月前

デンス・レトリバー

高密度検索エンジンは、膨大な文書ライブラリからクエリの意味に最も関連性の高い段落を迅速に見つける役割を担っており、検索強化生成システムの中核となる基盤コンポーネントです。

3ヶ月前

展開しながら学ぶ

LWDは、汎用ロボットが継続的に経験を収集し、ポリシーの自己進化を実現することを可能にする、フリートレベルのオフラインからオンラインへの強化学習フレームワークです。

2ヶ月前

誘導思考強化

GTRは、複雑な視覚環境におけるモデルの推論を導き、「思考停止」を防ぐことができる。

3ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

日付

3ヶ月前

組織

Paper URL

openreview.net

タグ

強化学習

ワールドアクションモデルWAM

WAMは、身体化された知能とロボット工学の分野における、新しいAI基盤モデルアーキテクチャです。

2ヶ月前

ピークリターン貪欲スライス

PRGSは、オフライン強化学習モデルが高報酬の経験を繋ぎ合わせる能力を大幅に向上させる。

3ヶ月前

誘導思考強化

GTRは、複雑な視覚環境におけるモデルの推論を導き、「思考停止」を防ぐことができる。

3ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

AIでAIを構築

HyperAI Newsletters

関連 Wiki

ワールドアクションモデルWAM

ピークリターン貪欲スライス

空間理論

デンス・レトリバー

展開しながら学ぶ

誘導思考強化

AIでAIを構築

HyperAI Newsletters

関連 Wiki

ワールドアクションモデルWAM

ピークリターン貪欲スライス

空間理論

デンス・レトリバー

展開しながら学ぶ

誘導思考強化

AIでAIを構築

HyperAI Newsletters

関連 Wiki

ワールドアクションモデルWAM

ピークリターン貪欲スライス

空間理論

デンス・レトリバー

展開しながら学ぶ

誘導思考強化

関連 Wiki

ワールドアクションモデルWAM

ピークリターン貪欲スライス

空間理論

デンス・レトリバー

展開しながら学ぶ

誘導思考強化

Command Palette

平均速度戦略（MVP）

AIでAIを構築

HyperAI Newsletters

Command Palette

平均速度戦略（MVP）

関連 Wiki

ワールドアクションモデルWAM

ピークリターン貪欲スライス

空間理論

デンス・レトリバー

展開しながら学ぶ

誘導思考強化

AIでAIを構築

HyperAI Newsletters

Command Palette

平均速度戦略（MVP）

関連 Wiki

ワールドアクションモデルWAM

ピークリターン貪欲スライス

空間理論

デンス・レトリバー

展開しながら学ぶ

誘導思考強化

AIでAIを構築

HyperAI Newsletters

関連 Wiki

ワールドアクションモデルWAM

ピークリターン貪欲スライス

空間理論

デンス・レトリバー

展開しながら学ぶ

誘導思考強化

関連 Wiki

ワールドアクションモデルWAM

ピークリターン貪欲スライス

空間理論

デンス・レトリバー

展開しながら学ぶ

誘導思考強化