MiraData は、Tencent PCG ARC Lab と香港中文大学が 2024 年に共同開発した大規模なビデオ データ セットです。長時間のビデオ生成タスク向けに特別に設計されています。その論文結果は「MiraData: 長時間と構造化されたキャプションを備えた大規模なビデオ データセット」
これまでの短いビデオ クリップとは異なり、MiraData は 1 ~ 2 分の未編集のビデオ クリップ (平均再生時間 72.1 秒) に焦点を当てており、各ビデオにはさまざまな角度からの構造化された説明が含まれており、平均説明長は 318 ワードであり、ビデオの包括的なプレゼンテーションを保証します。内容の。主題の説明、背景、スタイル、カメラの動き、短い説明、密な説明を含む 6 種類の説明により、データセットの説明の深さが強化されます。
高品質のクリップを確保するために、研究チームは、美しさ、動きの強度、色に基づいてデータセットを 5 つのサブセットにフィルタリングし、高いビジュアル品質と強い動きの強度を持つクリップを選択しました。詳細かつ正確な説明を取得するために、研究チームはまず最先端の字幕ジェネレーターを使用して短い字幕を生成し、次に GPT-4V を使用してそれらを強化して高密度の字幕を生成します。複数の視点からきめ細かなビデオ説明を提供します。
MiraData データセットは、長時間ビデオの生成、ビデオ コンテンツの理解と生成の分野の研究者に貴重なリソースと新たな挑戦の機会を提供します。
做种 1
下载中 0
已完成 31
总下载 43