Ensemble De Données De Montage Vidéo Piloté Par Les Instructions Ditto-1M
Date
Paper URL
License
Non-Commercial
Ditto-1M est un ensemble de données de montage vidéo piloté par commandes, publié en 2025 par l'Université des sciences et technologies de Hong Kong, Ant Group, l'Université du Zhejiang et d'autres institutions. Les résultats de l'étude sont les suivants :Mise à l'échelle du montage vidéo basé sur les instructions avec un ensemble de données synthétiques de haute qualité", qui vise à promouvoir le développement de modèles de montage vidéo basés sur des instructions en langage naturel, et à améliorer la compréhension du modèle des instructions complexes et la précision de la génération vidéo grâce à des échantillons synthétiques à grande échelle et de haute qualité.
Cet ensemble de données contient environ un million de triplet de montage vidéo haute fidélité, chacun composé d'une vidéo source, d'une instruction de montage et de la vidéo montée. Chaque vidéo comporte en moyenne 101 images et une résolution de 1 280 × 720. Les tâches de montage sont divisées en trois catégories :
- Transfert de style global : y compris les changements de style artistique, l'étalonnage des couleurs, les effets visuels, etc.
- Montage global de forme libre : y compris les modifications de scènes complexes, les changements environnementaux, les transformations créatives, etc.
- Édition locale : comprend la modification précise des objets, les changements d'attributs, les ajustements locaux, etc.

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.