
摘要
近年来,从文本生成视频(subject-to-video generation)取得了显著进展。然而,现有的模型在忠实遵循文本指令方面仍面临重大挑战。这一限制通常被称为“复制粘贴问题”,其根源在于广泛使用的配对训练范式(in-pair training paradigm)。这种做法通过从与目标视频相同场景中采样参考图像,将主体身份与背景和上下文属性内在地纠缠在一起。为了解决这一问题,我们引入了Phantom-Data,这是首个通用的跨配对主体到视频一致性数据集,包含约一百万个跨多种类别的身份一致对。我们的数据集通过一个三阶段的管道构建:(1) 一个通用且输入对齐的主体检测模块;(2) 从超过5300万段视频和30亿张图像中进行大规模跨上下文主体检索;(3) 基于先验的身份数字验证,以确保在上下文变化下的视觉一致性。全面的实验表明,使用Phantom-Data进行训练可以显著提高提示对齐性和视觉质量,同时保持与配对基线相当的身份一致性。