HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Ditto-1M 指令驱动视频编辑数据集

Discuss on Discord

Date

2 个月前

Organization

The Hong Kong University of Science and Technology
浙江大学
蚂蚁集团

Paper URL

2510.15742

License

Non-Commercial

Ditto-1M 是由香港科技大学联合蚂蚁集团、浙江大学等机构于 2025 年发布的一个指令驱动视频编辑数据集,相关论文成果为「Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset」,旨在推动基于自然语言指令的视频编辑模型的发展,通过大规模、高质量的合成样本,提升模型对复杂指令的理解与视频生成的精确度。

该数据集包含约 1,000,000 条高保真视频编辑三元组,分别由源视频、编辑指令和编辑后视频组成,平均每段视频约 101 帧,分辨率为 1,280×720 。其中编辑任务分为三类:

  • 全局风格变换(Global style transfer):包括艺术风格变化、色彩分级、视觉特效等;
  • 全局自由编辑(Global freeform editing):包括复杂场景修改、环境变化、创意转换等;
  • 局部编辑(Local editing):包括精确的物体修改、属性变化、局部调整等。
数据集示例

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供