8ヶ月前

テキストから動画

画像から動画生成

マルチモーダル

Zhuowei Chen Bingchuan Li Tianxiang Ma Lijie Liu Mingcong Liu Yi Zhang Gen Li Xinghui Li Siyu Zhou Qian He

概要

近年、テキストからビデオ生成（Subject-to-video generation）は著しい進歩を遂げています。しかし、既存のモデルは依然としてテキスト指示に忠実に従うことに大きな課題を抱えています。この制限は一般的に「コピーペースト問題」と呼ばれ、対象ビデオと同じシーンから参照画像をサンプリングするという広く採用されているペア内訓練パラダイムから生じます。この問題に対処するために、私たちはファントムデータ（Phantom-Data）を導入します。これは初めての汎用的なクロスペア主体間一貫性データセットで、約100万の異なるカテゴリにわたる同一性の一貫性を持つペアを含んでいます。当社のデータセットは、3段階のパイプラインを通じて構築されています。(1) 汎用的かつ入力に合わせた主体検出モジュール、(2) 5300万以上のビデオと30億以上の画像からの大規模なクロスコンテクスト主体検索、(3) コンテクスト変動下での視覚的一貫性を確保するための事前ガイドに基づく同一性確認です。包括的な実験結果により、ファントムデータを使用した訓練がプロンプトの一貫性と視覚品質を大幅に向上させつつ、ペア内基準と同等の同一性一貫性を維持することが示されています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

テキストから動画

画像から動画生成

マルチモーダル

Zhuowei Chen Bingchuan Li Tianxiang Ma Lijie Liu Mingcong Liu Yi Zhang Gen Li Xinghui Li Siyu Zhou Qian He

概要

近年、テキストからビデオ生成（Subject-to-video generation）は著しい進歩を遂げています。しかし、既存のモデルは依然としてテキスト指示に忠実に従うことに大きな課題を抱えています。この制限は一般的に「コピーペースト問題」と呼ばれ、対象ビデオと同じシーンから参照画像をサンプリングするという広く採用されているペア内訓練パラダイムから生じます。この問題に対処するために、私たちはファントムデータ（Phantom-Data）を導入します。これは初めての汎用的なクロスペア主体間一貫性データセットで、約100万の異なるカテゴリにわたる同一性の一貫性を持つペアを含んでいます。当社のデータセットは、3段階のパイプラインを通じて構築されています。(1) 汎用的かつ入力に合わせた主体検出モジュール、(2) 5300万以上のビデオと30億以上の画像からの大規模なクロスコンテクスト主体検索、(3) コンテクスト変動下での視覚的一貫性を確保するための事前ガイドに基づく同一性確認です。包括的な実験結果により、ファントムデータを使用した訓練がプロンプトの一貫性と視覚品質を大幅に向上させつつ、ペア内基準と同等の同一性一貫性を維持することが示されています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています