
要約
近年、テキストからビデオ生成(Subject-to-video generation)は著しい進歩を遂げています。しかし、既存のモデルは依然としてテキスト指示に忠実に従うことに大きな課題を抱えています。この制限は一般的に「コピーペースト問題」と呼ばれ、対象ビデオと同じシーンから参照画像をサンプリングするという広く採用されているペア内訓練パラダイムから生じます。この問題に対処するために、私たちはファントムデータ(Phantom-Data)を導入します。これは初めての汎用的なクロスペア主体間一貫性データセットで、約100万の異なるカテゴリにわたる同一性の一貫性を持つペアを含んでいます。当社のデータセットは、3段階のパイプラインを通じて構築されています。(1) 汎用的かつ入力に合わせた主体検出モジュール、(2) 5300万以上のビデオと30億以上の画像からの大規模なクロスコンテクスト主体検索、(3) コンテクスト変動下での視覚的一貫性を確保するための事前ガイドに基づく同一性確認です。包括的な実験結果により、ファントムデータを使用した訓練がプロンプトの一貫性と視覚品質を大幅に向上させつつ、ペア内基準と同等の同一性一貫性を維持することが示されています。