Command Palette

Search for a command to run...

1 个月前

OmniInsert:通过扩散Transformer模型实现无掩码的任意参考视频插入

OmniInsert:通过扩散Transformer模型实现无掩码的任意参考视频插入

摘要

基于扩散模型的视频插入技术近年来取得了令人瞩目的进展。然而,现有方法依赖复杂的控制信号,且在主体一致性方面表现不佳,严重限制了其实际应用潜力。本文聚焦于无掩码视频插入任务,旨在解决三个关键挑战:数据稀缺性、主体与场景之间的平衡性,以及插入内容的和谐性。为应对数据稀缺问题,我们提出了一种全新的数据构建流程——InsertPipe,可自动构建多样化的跨模态配对数据。基于该数据流程,我们进一步开发了OmniInsert,一种面向单主体或多主体参考的统一无掩码视频插入框架。具体而言,为保持主体与场景之间的平衡,我们引入了一种简单而有效的条件特异性特征注入机制,能够清晰地区分并注入多源条件信息;同时提出一种新颖的渐进式训练策略,使模型能够有效平衡来自主体和源视频的特征注入。此外,我们设计了主体聚焦损失函数(Subject-Focused Loss),以提升主体细节的外观表现。为进一步增强插入内容的和谐性,我们提出一种插入偏好优化方法(Insertive Preference Optimization),通过模拟人类偏好对模型进行优化,并在参考阶段引入上下文感知重述模块(Context-Aware Rephraser),实现主体与原始场景的无缝融合。为弥补该领域缺乏基准评测体系的不足,我们构建了InsertBench——一个涵盖多样化场景、并精心筛选主体的综合性基准数据集。在InsertBench上的评估结果表明,OmniInsert在性能上超越了当前最先进的闭源商业解决方案。相关代码将公开发布。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供