HyperAI

11日前

人工知能・ロボティクス研究界において、ビジョン言語行動モデル（VLA）に次ぐ新たな基盤モデルの枠組みとしてワールドアクションモデル（WAM）の急速な台頭が確認されている。WAMは、大規模な動画生成モデルや世界モデルのバックボーンを活用し、言語指示と現在観測に基づいて未来の環境状態を予測した上でロボット動作を生成する手法である。従来のVLAが言語と画像の解釈に依存するのに対し、WAMは動画プリトレーニングで得られた時空間的动态な事前知識を活用し、言語から物理行動へのグラウンディングギャップを縮小する狙いがある。業界ではNVIDIAのDreamZeroやCosmos Policy、アントグループのLingBot-VA、BeingBeyondのBeing-H0.7などが相次いで発表され、オープンエンドのリアルワールドベンチマークRoboArenaで高い汎用性能を示している。WAMの設計は主に逆動力学、同時予測、そして推論時に動画生成をスキップするRepresentation-Onlyの三つに大別され、Mixture-of-Transformersアーキテクチャが主流となりつつある。ただし課題も顕在化している。動画トークンの処理により学習コストはVLAの約7倍以上に達し、推論速度も3〜4倍の遅延が生じる。また、大規模動画データと高スペックGPU基盤への依存度が強い。これらの制約を受け、研究界ではWAMとVLAの利点を融合したハイブリッド型アーキテクチャや、接触・運動制御に特化したロボティクスファースト基盤モデルへの移行が模索されている。今後は計算資源の最適化と、シミュレーションから実環境への移植精度向上が技術普及の鍵となる見込みである。

このニュースは、業界の最新情報を効率的に提供するため、AIによって自動的に集約されています。内容は意見や助言を構成するものではありません。

関連リンク

関連リンク

関連リンク

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

Command Palette

動画モデルで行動制御：ワールドアクションモデル台頭

関連リンク

Command Palette

動画モデルで行動制御：ワールドアクションモデル台頭

関連リンク

Command Palette

動画モデルで行動制御：ワールドアクションモデル台頭

関連リンク

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。