Command Palette

Search for a command to run...

6時間前

動画内指示:生成制御としての視覚信号

Gongfan Fang Xinyin Ma Xinchao Wang

動画内指示:生成制御としての視覚信号

要約

以下に示すのは、ご提供いただいた英文の日本語翻訳です。科技論文や技術レポートに適した、正式かつ専門的なスタイルで翻訳しています。近年、大規模動画生成モデルは強力な視覚的能力を実証しており、現在の観測データにおける論理的および物理的な手がかり(cues)に準拠した将来のフレーム予測を可能にしています。本研究では、フレーム内に埋め込まれた視覚信号を「指示(インストラクション)」として解釈することで、これらの能力を制御可能なImage-to-Video生成(画像からの動画生成)に活用できるかを検証します。我々はこのパラダイムを「In-Video Instruction」と定義しました。本質的に大域的(グローバル)かつ粗粒度なテキスト記述を提供するプロンプトベースの制御とは対照的に、In-Video Instructionは、オーバーレイされたテキスト、矢印、あるいは軌跡といった要素を通じて、ユーザーのガイダンスを視覚領域に直接エンコードします。これにより、異なるオブジェクトに対して個別の指示を割り当てることが可能となり、視覚的な被写体とその意図された動作との間に、明示的かつ空間的認識(spatial-aware)を伴う、曖昧さのない対応関係を実現します。Veo 3.1、Kling 2.5、Wan 2.2を含む3つの最先端(SOTA)の生成モデルを用いた広範な実験により、動画モデルが特に複雑な複数オブジェクトのシナリオにおいて、このような視覚的に埋め込まれた指示を確実に解釈し、実行できることが示されました。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
動画内指示:生成制御としての視覚信号 | 論文 | HyperAI超神経