6ヶ月前

ロボティクス

ビデオ理解

エムボディドインテリジェンス

コンピュータビジョン

Xiaoyu Chen Hangxing Wei Pushi Zhang Chuheng Zhang Kaixin Wang Yanjiang Guo Rushuai Yang Yucen Wang Xinquan Xiao Li Zhao

概要

視覚・言語・行動（Visual-Language-Action: VLA）モデルは、言語指示に従い、新しいシナリオへも一般化可能なロボット操作ポリシーを学習するための注目される枠組みとして登場している。近年の研究では、2フレーム間の視覚的変化を抽象的に表現する「潜在行動（latent action）」をVLAの事前学習に組み込むことが検討され始めている。本論文では、潜在行動モデリングを進化させ、一般化可能なロボット操作ポリシーの学習を実現する新たな視覚・言語・潜在行動（ViLLA）フレームワーク「villa-X」を提案する。本研究のアプローチは、潜在行動の学習方法およびVLA事前学習への統合方法の両面で改善を図っている。これらの貢献により、villa-XはSIMPLERやLIBEROを含む複数のシミュレーション環境において、またグリッパーおよび多指ハンドを用いた2つの現実世界のロボット設定において、優れた性能を達成した。本研究は、ViLLAのアプローチが大きな可能性を秘めていると確信しており、villa-Xが今後の研究における強固な基盤を提供すると期待している。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

ロボティクス

ビデオ理解

エムボディドインテリジェンス

コンピュータビジョン

Xiaoyu Chen Hangxing Wei Pushi Zhang Chuheng Zhang Kaixin Wang Yanjiang Guo Rushuai Yang Yucen Wang Xinquan Xiao Li Zhao

概要

視覚・言語・行動（Visual-Language-Action: VLA）モデルは、言語指示に従い、新しいシナリオへも一般化可能なロボット操作ポリシーを学習するための注目される枠組みとして登場している。近年の研究では、2フレーム間の視覚的変化を抽象的に表現する「潜在行動（latent action）」をVLAの事前学習に組み込むことが検討され始めている。本論文では、潜在行動モデリングを進化させ、一般化可能なロボット操作ポリシーの学習を実現する新たな視覚・言語・潜在行動（ViLLA）フレームワーク「villa-X」を提案する。本研究のアプローチは、潜在行動の学習方法およびVLA事前学習への統合方法の両面で改善を図っている。これらの貢献により、villa-XはSIMPLERやLIBEROを含む複数のシミュレーション環境において、またグリッパーおよび多指ハンドを用いた2つの現実世界のロボット設定において、優れた性能を達成した。本研究は、ViLLAのアプローチが大きな可能性を秘めていると確信しており、villa-Xが今後の研究における強固な基盤を提供すると期待している。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

villa-X：視覚言語行動モデルにおける潜在行動モデリングの強化 | 記事 | HyperAI超神経