
要約
生成型世界モデルは、多様な環境において視運動方策(visuomotor policies)との相互作用をシミュレートする上で大きな可能性を秘めている。最先端の動画モデル(video models)は、スケーラブルかつ汎用的な方法で現実的な観測値および環境との相互作用を生成可能である。しかし、ロボティクス分野における動画モデルの活用は、主に訓練データやベースモデルの微調整に用いられた状況と類似した「分布内(in-distribution)」の評価に限定されてきた。本報告では、動画モデルがロボティクスにおける方策評価の全範囲に応用可能であることを示す。具体的には、標準的な性能評価から分布外(OOD: out-of-distribution)一般化能力の評価、さらには物理的・意味的セーフティの探査までをカバーできる。本研究では、最先端の動画基盤モデル(Veo)を基盤とした生成型評価システムを提案する。このシステムは、ロボットの行動条件付け(action conditioning)と多視点一貫性(multi-view consistency)を最適化しており、生成型画像編集および多視点補完技術を統合することで、現実世界のシーンを多様な一般化軸に沿って現実的な変化を再現可能にしている。我々は、このシステムが、新たな相互作用対象物、新たな視覚的背景、新たな干渉オブジェクトを含むように編集されたシーンを正確にシミュレートするベースモデルの能力を保持していることを実証した。この高精度な再現性により、標準条件および分布外条件下における異なる方策の相対的性能を正確に予測でき、一般化軸ごとの方策性能への影響を比較分析可能となり、物理的・意味的セーフティ制約に違反する行動を露呈させる「レッドチーム(red teaming)」による方策検証も実現した。これらの能力は、8つのGemini Robotics方策チェックポイントと、双腕操作機器を対象とした5つのタスクについて、1600件以上の実世界評価を通じて検証された。