Back to Headlines

DeepMind、Veo 3に「フレームチェーン」概念を提唱 動画生成モデルの汎用知能を解明

5日前

Google DeepMindは、生成式動画モデルVeo 3が「ゼロショット」で複雑な視覚的推論を実行できることを実証し、「フレームチェーン(CoF:Chain-of-Frames)」という新概念を提唱した。この理論は、大型言語モデル(LLM)における「思考の連鎖(CoT)」に類似し、動画生成の時系列的性質を活かして、問題解決の各ステップを逐次的にフレームとして生成することで、多段階の視覚的推論を可能にする。論文『ビデオモデルはゼロショット学習者であり推論者である』(Video models are zero-shot learners and reasoners)では、18,000以上の生成動画を分析し、Veo 3が特定のタスクに微調整されていない状態でも、感知から複雑な推論まで幅広い能力を「出現」させることを明らかにした。 研究チームは、能力を「感知」「モデリング」「操作」「推論」の4段階で構造化。感知では、画像分割、エッジ検出、超解像など、従来は専用モデルが必要とされたタスクをゼロショットで実行。モデリングでは、剛体・柔体の物理的挙動、浮力や反射といった直感的物理理解を示し、「視覚的ジェンガ」のような動的シナリオでも合理的な動作を再現。操作能力では、背景除去、スタイル変換、画像修復、ドローイングによるシーン編集など、複数の画像操作を一貫して実行。さらに、メキシコ料理の巻き寿司の作り方やロボットアームによるハンマーの把持といった、時間的順序と物理的整合性を要するタスクも再現可能。 特に注目すべきは、推論能力の高さ。迷路解法では、5×5グリッドで78%の成功率を達成(Veo 2は14%)し、画像入力に対する言語モデルや静止画像モデルと比較して、動画の時間的変化を活かした段階的推論の優位性を示した。同様に、視覚的な数独、対称性補完、色の一致なども成功。これらの結果から、Veo 3は単なる生成ツールではなく、視覚世界の理解と計画を可能にする「汎用的視覚知能」の芽を備えていると結論づけている。 ただし、専門モデルに比べて精度はまだ低く、計算コストも高い。しかし、LLMの発展経路を参考にすれば、コスト低下と能力向上のトレンドは継続する。DeepMindは、Veo 3が将来、画像認識やコンピュータビジョンの基盤モデルとしての役割を果たす可能性を示唆している。

Related Links