VidProM データセットは、UTS と浙江大学が共同開発した初の大規模な実際のユーザーのテキストからビデオへのプロンプト データセットであり、167 万個のユニークなテキストからビデオへのプロンプトと 4 つの最先端のプログラムによって生成された 669 万個が含まれています。アート拡散モデル。
このデータセットは、大量のビデオ コンテンツを提供するだけでなく、各プロンプトに関連付けられた NSFW (Not Safe For Work) の確率、3072 次元のプロンプトの埋め込み、および追加の関連メタデータも含まれています。その構築プロセスには、ソース HTML ファイルの収集、テキスト キューの抽出と埋め込み、NSFW 確率の割り当て、ビデオのクロールと生成、そして最後に意味的にユニークなキューのフィルタリングが含まれます。
VidProM のリリースは、モデルの評価、効率的なビデオ生成、フェイクビデオ検出、およびビデオ著作権検出をカバーするテキストからビデオへの生成分野の研究を促進することを目的としており、新しいテキストからビデオへの変換を探索および開発するための貴重なリソースを研究者に提供します。動画生成技術。