4 个月前

统一多模态

Qingyan Bai Qiuyu Wang Hao Ouyang Yue Yu Hanlin Wang Wen Wang Ka Leong Cheng Shuailei Ma Yanhong Zeng Zichen Liu

摘要

基于指令的视频编辑有望实现内容创作的民主化，然而其发展却因高质量、大规模训练数据的严重匮乏而受到严重制约。为此，我们提出了Ditto，一个全面的框架，旨在应对这一根本性挑战。Ditto的核心在于一种创新的数据生成流程，该流程融合了领先图像编辑器的创意多样性与上下文感知的视频生成能力，有效突破了现有模型在内容广度上的局限。为使该流程具备实际可行性，我们的框架通过采用一种高效且经过知识蒸馏的模型架构，并引入时间增强模块，成功解决了高成本与高质量之间的权衡难题，不仅显著降低了计算开销，还提升了视频时序的一致性。最后，为实现全面可扩展性，整个数据生成流程由一个智能代理驱动，该代理能够生成多样化的指令并严格筛选输出结果，从而在大规模下保障数据质量。基于此框架，我们投入超过12,000 GPU天，构建了Ditto-1M——一个包含一百万条高保真视频编辑样例的新数据集。我们基于Ditto-1M，采用课程学习策略训练了模型Editto。实验结果表明，该模型在指令遵循能力方面表现卓越，显著超越现有方法，确立了基于指令的视频编辑领域的新SOTA（state-of-the-art）水平。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

4 个月前

统一多模态

Qingyan Bai Qiuyu Wang Hao Ouyang Yue Yu Hanlin Wang Wen Wang Ka Leong Cheng Shuailei Ma Yanhong Zeng Zichen Liu

摘要

基于指令的视频编辑有望实现内容创作的民主化，然而其发展却因高质量、大规模训练数据的严重匮乏而受到严重制约。为此，我们提出了Ditto，一个全面的框架，旨在应对这一根本性挑战。Ditto的核心在于一种创新的数据生成流程，该流程融合了领先图像编辑器的创意多样性与上下文感知的视频生成能力，有效突破了现有模型在内容广度上的局限。为使该流程具备实际可行性，我们的框架通过采用一种高效且经过知识蒸馏的模型架构，并引入时间增强模块，成功解决了高成本与高质量之间的权衡难题，不仅显著降低了计算开销，还提升了视频时序的一致性。最后，为实现全面可扩展性，整个数据生成流程由一个智能代理驱动，该代理能够生成多样化的指令并严格筛选输出结果，从而在大规模下保障数据质量。基于此框架，我们投入超过12,000 GPU天，构建了Ditto-1M——一个包含一百万条高保真视频编辑样例的新数据集。我们基于Ditto-1M，采用课程学习策略训练了模型Editto。实验结果表明，该模型在指令遵循能力方面表现卓越，显著超越现有方法，确立了基于指令的视频编辑领域的新SOTA（state-of-the-art）水平。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供