Command Palette
Search for a command to run...
Gongfan Fang Xinyin Ma Xinchao Wang

要約
以下に示すのは、ご提供いただいた英文の日本語翻訳です。科技論文や技術レポートに適した、正式かつ専門的なスタイルで翻訳しています。近年、大規模動画生成モデルは強力な視覚的能力を実証しており、現在の観測データにおける論理的および物理的な手がかり(cues)に準拠した将来のフレーム予測を可能にしています。本研究では、フレーム内に埋め込まれた視覚信号を「指示(インストラクション)」として解釈することで、これらの能力を制御可能なImage-to-Video生成(画像からの動画生成)に活用できるかを検証します。我々はこのパラダイムを「In-Video Instruction」と定義しました。本質的に大域的(グローバル)かつ粗粒度なテキスト記述を提供するプロンプトベースの制御とは対照的に、In-Video Instructionは、オーバーレイされたテキスト、矢印、あるいは軌跡といった要素を通じて、ユーザーのガイダンスを視覚領域に直接エンコードします。これにより、異なるオブジェクトに対して個別の指示を割り当てることが可能となり、視覚的な被写体とその意図された動作との間に、明示的かつ空間的認識(spatial-aware)を伴う、曖昧さのない対応関係を実現します。Veo 3.1、Kling 2.5、Wan 2.2を含む3つの最先端(SOTA)の生成モデルを用いた広範な実験により、動画モデルが特に複雑な複数オブジェクトのシナリオにおいて、このような視覚的に埋め込まれた指示を確実に解釈し、実行できることが示されました。