6ヶ月前

エージェント

エムボディドインテリジェンス

ロボティクス

アプローチ／フレームワーク

Yijun Liu Yuwei Liu Yuan Meng Jieheng Zhang Yuwei Zhou Ye Li et al

概要

視覚中心型の階層的エンボディドモデルは、長期にわたるロボット制御において強力な可能性を示している。しかし、従来の手法には空間認識能力が欠如しており、複雑な環境において視覚的計画を実行可能な制御に橋渡しする能力が制限されている。この課題に対処するため、本研究では、明示的な空間モデリングと推論を活用した統合型の空間認識視覚運動ロボット操作フレームワーク「Spatial Policy（SP）」を提案する。具体的には、まず空間計画テーブルを用いて空間的に誘導された予測をモデル化するための、空間条件付きエンボディド動画生成モジュールを設計する。次に、協調性を備えた実行可能な行動を推論するための空間ベースの行動予測モジュールを提案する。さらに、二段階の再計画を通じて空間計画テーブルを精緻化するための空間推論フィードバックポリシーを導入する。広範な実験の結果、SPは最先端のベースラインを大きく上回り、最良のベースラインに対して平均33.0%の性能向上を達成した。また、11の多様なタスクにおいて平均86.7%の成功率を達成し、エンボディドモデルのロボット制御応用における実用性を著しく向上させた。コードおよびチェックポイントは、以下のURLで公開・維持されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

エージェント

エムボディドインテリジェンス

ロボティクス

アプローチ／フレームワーク

Yijun Liu Yuwei Liu Yuan Meng Jieheng Zhang Yuwei Zhou Ye Li et al

概要

視覚中心型の階層的エンボディドモデルは、長期にわたるロボット制御において強力な可能性を示している。しかし、従来の手法には空間認識能力が欠如しており、複雑な環境において視覚的計画を実行可能な制御に橋渡しする能力が制限されている。この課題に対処するため、本研究では、明示的な空間モデリングと推論を活用した統合型の空間認識視覚運動ロボット操作フレームワーク「Spatial Policy（SP）」を提案する。具体的には、まず空間計画テーブルを用いて空間的に誘導された予測をモデル化するための、空間条件付きエンボディド動画生成モジュールを設計する。次に、協調性を備えた実行可能な行動を推論するための空間ベースの行動予測モジュールを提案する。さらに、二段階の再計画を通じて空間計画テーブルを精緻化するための空間推論フィードバックポリシーを導入する。広範な実験の結果、SPは最先端のベースラインを大きく上回り、最良のベースラインに対して平均33.0%の性能向上を達成した。また、11の多様なタスクにおいて平均86.7%の成功率を達成し、エンボディドモデルのロボット制御応用における実用性を著しく向上させた。コードおよびチェックポイントは、以下のURLで公開・維持されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています