10 天前

Story2Board:一种无需训练的富有表现力的分镜生成方法

David Dinkevich, Matan Levy, Omri Avrahami, Dvir Samuel, Dani Lischinski
Story2Board:一种无需训练的富有表现力的分镜生成方法
摘要

我们提出 Story2Board,一种无需训练的、从自然语言生成富有表现力的分镜图(storyboard)的框架。现有方法大多局限于角色身份的一致性,而忽视了视觉叙事中的关键要素,如空间构图、背景演变以及叙事节奏。为解决这一问题,我们设计了一种轻量级的一致性框架,包含两个核心组件:潜在分镜锚定(Latent Panel Anchoring),用于在不同分镜间保持角色特征的一致性;以及互注意力值混合(Reciprocal Attention Value Mixing),通过在具有强互注意力关系的词元对之间软性融合视觉特征,增强跨分镜的语义连贯性。这两个机制无需修改模型架构或进行微调,即可显著提升生成结果的连贯性,使当前最先进的扩散模型能够生成视觉多样且语义一致的分镜图。为结构化生成过程,我们采用现成的语言模型,将自由形式的叙事文本转化为具有语义锚定的分镜级提示(panel-level prompts)。为评估性能,我们提出了丰富分镜图基准(Rich Storyboard Benchmark),这是一个面向开放域叙事的评测集合,用于综合评估布局多样性、背景相关的叙事能力以及整体一致性。此外,我们还引入了一种新的场景多样性指标(Scene Diversity Metric),用于量化分镜图在空间布局与姿态变化方面的多样性。定性与定量实验结果,以及用户研究均表明,Story2Board 在生成动态性、连贯性及叙事吸引力方面均显著优于现有基线方法。