10日前
VIRES: スケッチとテキストガイドによるビデオインスタンスリペイント
Shuchen Weng, Haojie Zheng, Peixuan Zhang, Yuchen Hong, Han Jiang, Si Li, Boxin Shi

要約
私たちはVIRES(スケッチとテキストのガイダンスによるビデオインスタンスリペイント方法)を紹介します。この方法は、ビデオインスタンスのリペイント、置換、生成、および削除を可能にします。既存の手法では、時間的一貫性と提供されたスケッチシーケンスとの正確なアライメントが難題となっています。VIRESは、テキストからビデオへの生成モデルの生成事前知識を活用して、時間的一貫性を維持し、視覚的に魅力的な結果を生み出します。 私たちは標準化された自己スケーリングを持つSequential ControlNetを提案します。これにより構造レイアウトが効果的に抽出され、高コントラストのスケッチ詳細が適応的に捉えられます。さらに、ディフージョントランスフォーマーのバックボーンにスケッチアテンションを追加することで、細かいスケッチ意味論を解釈し注入することができます。スケッチ対応エンコーダーは、リペイントされた結果が提供されたスケッチシーケンスとアライメントされることを保証します。 また、ビデオインスタンス編集手法の学習と評価に特化した詳細な注釈付きデータセットVireSetも提供しています。実験結果はVIRESの有効性を示しており、視覚品質、時間的一貫性、条件アライメント、および人間評価において最先端の手法を超える性能を発揮しています。 プロジェクトページ: このURL (this https URL)