Command Palette
Search for a command to run...
villa-X:視覚言語行動モデルにおける潜在行動モデリングの強化
villa-X:視覚言語行動モデルにおける潜在行動モデリングの強化
概要
視覚・言語・行動(Visual-Language-Action: VLA)モデルは、言語指示に従い、新しいシナリオへも一般化可能なロボット操作ポリシーを学習するための注目される枠組みとして登場している。近年の研究では、2フレーム間の視覚的変化を抽象的に表現する「潜在行動(latent action)」をVLAの事前学習に組み込むことが検討され始めている。本論文では、潜在行動モデリングを進化させ、一般化可能なロボット操作ポリシーの学習を実現する新たな視覚・言語・潜在行動(ViLLA)フレームワーク「villa-X」を提案する。本研究のアプローチは、潜在行動の学習方法およびVLA事前学習への統合方法の両面で改善を図っている。これらの貢献により、villa-XはSIMPLERやLIBEROを含む複数のシミュレーション環境において、またグリッパーおよび多指ハンドを用いた2つの現実世界のロボット設定において、優れた性能を達成した。本研究は、ViLLAのアプローチが大きな可能性を秘めていると確信しており、villa-Xが今後の研究における強固な基盤を提供すると期待している。