Ditto-1M 命令駆動型ビデオ編集データセット
Ditto-1Mは、香港科技大学、Ant Group、浙江大学などの機関によって2025年に公開されたコマンド駆動型のビデオ編集データセットです。関連する論文の結果は次のとおりです。高品質の合成データセットによる指示ベースのビデオ編集のスケーリング「自然言語指示に基づくビデオ編集モデルの開発を促進し、大規模で高品質な合成サンプルを通じてモデルの複雑な指示の理解とビデオ生成の精度を向上させることを目指しています。」
このデータセットには、約100万件の高忠実度ビデオ編集トリプルが含まれており、それぞれがソースビデオ、編集指示、編集済みビデオで構成されています。各ビデオの平均フレーム数は101で、解像度は1,280×720です。編集タスクは以下の3つのカテゴリに分類されます。
- グローバル スタイルの転送: 芸術的なスタイルの変更、カラー グレーディング、視覚効果などが含まれます。
- グローバルなフリーフォーム編集: 複雑なシーンの変更、環境の変化、クリエイティブな変換などが含まれます。
- ローカル編集: 正確なオブジェクトの変更、属性の変更、ローカル調整などが含まれます。

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.