HyperAIHyperAI

Command Palette

Search for a command to run...

動画モデルで行動制御:ワールドアクションモデル台頭

人工知能・ロボティクス研究界において、ビジョン言語行動モデル(VLA)に次ぐ新たな基盤モデルの枠組みとしてワールドアクションモデル(WAM)の急速な台頭が確認されている。WAMは、大規模な動画生成モデルや世界モデルのバックボーンを活用し、言語指示と現在観測に基づいて未来の環境状態を予測した上でロボット動作を生成する手法である。従来のVLAが言語と画像の解釈に依存するのに対し、WAMは動画プリトレーニングで得られた時空間的动态な事前知識を活用し、言語から物理行動へのグラウンディングギャップを縮小する狙いがある。 業界ではNVIDIAのDreamZeroやCosmos Policy、アントグループのLingBot-VA、BeingBeyondのBeing-H0.7などが相次いで発表され、オープンエンドのリアルワールドベンチマークRoboArenaで高い汎用性能を示している。WAMの設計は主に逆動力学、同時予測、そして推論時に動画生成をスキップするRepresentation-Onlyの三つに大別され、Mixture-of-Transformersアーキテクチャが主流となりつつある。 ただし課題も顕在化している。動画トークンの処理により学習コストはVLAの約7倍以上に達し、推論速度も3〜4倍の遅延が生じる。また、大規模動画データと高スペックGPU基盤への依存度が強い。これらの制約を受け、研究界ではWAMとVLAの利点を融合したハイブリッド型アーキテクチャや、接触・運動制御に特化したロボティクスファースト基盤モデルへの移行が模索されている。今後は計算資源の最適化と、シミュレーションから実環境への移植精度向上が技術普及の鍵となる見込みである。

関連リンク

動画モデルで行動制御:ワールドアクションモデル台頭 | 人気の記事 | HyperAI超神経