HyperAIHyperAI

Command Palette

Search for a command to run...

1 年前

StoryDiffusion:用于长程图像和视频生成的一致性自注意力

Yupeng Zhou Daquan Zhou Ming-Ming Cheng Jiashi Feng Qibin Hou

一键部署 StoryDiffusion

20 小时 RTX 5090 算力资源,仅 $1 (原价 $7)
跳转至 Notebook

摘要

对于近期基于扩散的生成模型而言,在生成的图像序列中保持内容的一致性(尤其是包含主体和复杂细节的图像)是一个重大挑战。本文提出了一种新的自注意力计算方法,称为一致性自注意力(Consistent Self-Attention),该方法显著提升了生成图像之间的一致性,并以零样本方式增强了现有的预训练基于扩散的文生图模型。为将我们的方法扩展至长程视频生成,我们进一步引入了一种新颖的语义空间时序运动预测模块,名为语义运动预测器(Semantic Motion Predictor)。该模块经过训练,可在语义空间中估计所提供两张图像之间的运动条件。此模块能够将生成的图像序列转换为具有平滑过渡和一致主体的视频,其稳定性显著优于仅基于潜在空间的模块,尤其在长视频生成场景中表现更为突出。通过融合这两个新颖组件,我们的框架——StoryDiffusion——能够以包含丰富内容的、一致的图像或视频来描述基于文本的故事。

一句话总结

StoryDiffusion 通过整合一致性自注意力(Consistent Self-Attention)与语义运动预测器(Semantic Motion Predictor),以零样本方式增强预训练的文本到图像扩散模型。前者用于维持跨图像的主体一致性,后者在语义空间中估计帧间过渡,从而生成视觉演进稳定且平滑的长程视频。

核心贡献

  • 本文提出一致性自注意力机制,这是一种免训练且可插拔的模块,能够在批次内建立跨图像连接,以零样本方式在生成的多张图像中保持主体身份与复杂细节。
  • 提出语义运动预测器,通过在语义空间中直接估计起始帧与结束帧之间的过渡条件,将框架扩展至长程视频生成,其生成的序列比仅基于潜在空间的方法更为平滑稳定。
  • 这些组件被整合至 StoryDiffusion 统一框架中,该框架通过一致的图像序列或视频来叙述基于文本的故事,同时有效处理大规模动作与复杂过渡。

引言

扩散模型彻底革新了视觉内容生成,但在故事叙述应用中保持多帧的主体一致性依然具有挑战性。现有方法通常需要在文本可控性与视觉保真度之间做出妥协,难以同时保持身份与服饰的一致性,或依赖计算成本高昂的时间模块。作者通过引入一致性自注意力机制克服了这些局限。该零样本插件将参考 token 直接融入注意力机制,无需额外训练即可强制跨图像的角色一致性。此外,该模块与滑动窗口结合以支持长篇叙事,并搭配语义运动预测器,后者通过在语义空间中建模运动来生成平滑的视频过渡,最终提供了一条轻量级且高度可控的自动化故事可视化流水线。

数据集

  • 数据集构成与来源:作者使用了外部数据集,但提供的摘要未明确其具体构成或来源。
  • 各子集关键细节:提供的文本未列出子集规模、来源或筛选标准。
  • 论文的数据使用方式:作者将数据用于模型训练,但摘要省略了训练集划分、混合比例及使用流水线的细节。
  • 裁剪策略、元数据构建或其他处理细节:提供的摘要未描述任何裁剪方法、元数据生成或预处理步骤。

方法

提出的 StoryDiffusion 框架基于文本故事分两个阶段运行,以生成一致的图像序列与过渡视频。第一阶段专注于免训练地生成主体一致的图像,第二阶段则利用新型运动预测模块将这些图像转换为平滑且一致的视频。

如图所示,初始阶段利用预训练的文本到图像扩散模型生成与故事对应的图像序列。叙事内容被拆分为多个提示词,以批次形式处理以生成一组图像。为确保批次内的一致性,作者引入了名为一致性自注意力的免训练模块。该模块集成于扩散模型的 U-Net 架构中,替代了标准的自注意力机制。其核心创新在于能够在生成过程中建立批次内不同图像之间的连接。给定一批图像特征 IRB×N×C\mathcal{I} \in \mathbb{R}^{B \times N \times C}IRB×N×C,原始自注意力机制对每个图像特征 IiI_iIi 独立运行。相比之下,一致性自注意力从批次中的其他图像采样 token SiS_iSi,并将其与目标图像 IiI_iIi 的 token 配对,形成新的 token 集合 PiP_iPi。查询向量 QiQ_iQi 保持不变,但键和值向量源自组合集合 PiP_iPi。该过程使自注意力函数能够计算整个批次内的交互,从而促进角色身份、面部特征与服饰等共享属性的收敛。这种免训练方法使模型无需额外训练即可生成主体一致的图像,使其成为现有扩散模型的一种即插即用型增强方案。

StoryDiffusion 的第二阶段通过预测每对相邻图像之间的中间帧,将生成的一致图像序列转换为视频。该过程通过名为语义运动预测器的新型模块实现。该模块解决的核心挑战是:在生成差异较大的图像之间的过渡时会出现不稳定性,这是现有仅依赖时间模块的方法所观察到的局限。为克服此问题,语义运动预测器在语义空间中运行。它首先使用预训练的 CLIP 图像编码器将起始帧 FsF_sFs 和结束帧 FeF_eFe 编码为向量 KsK_sKsKeK_eKe,以有效捕获空间信息。随后对这些语义向量进行插值,形成对应于目标帧长的序列 K1,K2,...,KLK_1, K_2, ..., K_LK1,K2,...,KL。基于 Transformer 的结构预测器处理该序列,生成预测的过渡嵌入 P1,P2,...,PLP_1, P_2, ..., P_LP1,P2,...,PL。这些嵌入随后作为控制信号输入过渡视频扩散模型。具体而言,预测嵌入被投影为键和值向量,并融入 U-Net 的交叉注意力机制中,以指导每一帧的生成。该方法在利用视频扩散模型生成能力的同时,确保运动由连贯的语义轨迹引导,从而实现更平滑稳定的过渡,尤其适用于长程视频。该框架采用模块化设计,允许将第一阶段的生成图像直接作为视频生成阶段的输入,从而支持连贯视觉故事的构建。

实验

在标准扩散架构下与主流基线模型进行的对比实验,验证了主体一致图像生成与平滑过渡视频创建的有效性。定性评估表明,该方法能在不同场景下可靠地保持角色身份、服饰特征与提示词遵循度,而竞争模型则常出现视觉伪影、服饰不一致或时间连续性断裂。补充的消融实验证实了可插拔设计与采样参数的有效性,盲测用户研究也通过强烈的参与者偏好进一步印证了上述结论。综合而言,这些结果确立该方法为一种稳健的免训练框架,可有效维持静态与动态生成任务中的视觉一致性。

作者通过将该方法与最新前沿模型对比,评估了其在生成一致图像与视频方面的表现。结果表明,该方法在定性与定量评估中均取得优越性能,并在不同任务中获得最高的用户偏好。StoryDiffusion 在生成一致图像方面优于 IP-Adapter 和 PhotoMaker,用户偏好度更高。在过渡视频生成任务中,StoryDiffusion 相比 SparseCtrl 和 SEINE 同样获得最高用户偏好。该方法在图像与视频生成任务中均展现出强大的主体一致性保持能力与文本可控性。

作者通过将方法与前人前沿方案对比,评估了其在生成一致过渡视频方面的表现。结果表明,该方法在多项定量指标上均优于竞品,展现出视频生成中更优越的连续性与一致性。定量数据与用户研究结果共同支撑了上述发现。与基线模型相比,该方法在过渡视频生成的全部四项定量指标上均取得最佳表现。结果显示生成视频的连续性与一致性得到提升,损坏的中间帧数量显著减少。用户研究进一步证实了该方法在生成一致过渡视频方面的优越性能。

作者将方法与现有生成一致图像与视频的方案进行对比,综合评估了定性与定量性能。结果表明,该方法在图像与视频生成任务中均实现了更优的一致性与文本提示词对齐效果。用户研究进一步证实了其相较于前沿基线方案的有效性。在图像生成方面,StoryDiffusion 在保持主体一致性与文本可控性上优于 IP-Adapter 和 PhotoMaker。在视频生成方面,StoryDiffusion 相比 SparseCtrl 和 SEINE 能生成更平滑且符合物理规律的过渡视频。用户研究结果显示,在图像与视频生成任务中均明确偏好 StoryDiffusion。

该评估在图像与过渡视频生成任务中将提出的 StoryDiffusion 方法与前沿基线模型进行对比,以验证主体一致性与文本可控性。定性评估与用户研究表明,该方法在保持卓越提示词遵循度与视觉连贯性的同时,能够生成更平滑、更符合物理规律的视觉序列,且损坏帧数量更少。总体而言,该方法在两类媒体生成任务中均稳定优于现有技术,证实其在生成高质量且时间连贯内容方面的有效性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供