HyperAIHyperAI

Command Palette

Search for a command to run...

Seedance 2.0:提升应对世界复杂性的 Video Generation 能力

摘要

Seedance 2.0 是一款全新的原生多模态音视频生成模型,于 2026 年 2 月初在中国正式发布。与前代模型 Seedance 1.0 和 1.5 Pro 相比,Seedance 2.0 采用了统一、高效且大规模的架构,用于多模态音视频的联合生成。通过集成目前业界最全面的多模态内容参考与编辑功能套件之一,该模型能够支持文本、图像、音频和视频四种输入模态。Seedance 2.0 在视频与音频生成的各项关键子维度上均实现了实质性且全面的提升。在专家评估和公开用户测试中,该模型的表现均已达到行业领先水平。Seedance 2.0 支持直接生成时长在 4 至 15 秒之间的音视频内容,原生输出分辨率支持 480p 和 720p。在以多模态输入作为参考时,其目前的开放平台最多支持 3 段视频剪辑、9 张图像和 3 段音频剪辑。此外,我们还提供了 Seedance 2.0 Fast 版本,这是 Seedance 2.0 的加速变体,旨在提升低延迟场景下的生成速度。Seedance 2.0 在基础生成能力和多模态生成性能方面均取得了重大突破,为最终用户带来了更卓越的创作体验。

一句话总结

请提供论文摘要,以便我将其改写成一个精炼的句子,同时保留关于 Seedance 2.0 模型、其方法和评估的所有具体细节。

核心贡献

  • Seedance 2.0 引入了一个统一的多模态音视频联合生成框架,其特点是通过指令遵循、主体身份保持以及用于镜头序列自主导演推理,实现了增强的可控性。
  • 该模型结合了升级后的音频生成模块,配备了双耳技术,能够产生高保真、沉浸式的声景,并在多轨道音频与视觉动作之间实现精确的时间同步。
  • 这项工作实现了多功能的视频编辑能力,包括对特定片段或角色的针对性编辑,以及用于生成无缝连续镜头的视频续写功能。

引言

视频生成模型对于现代数字内容基础设施和生成式 AI 生态系统至关重要。虽然之前的模型专注于生成可控性有限的短片段,但它们往往在复杂的运动稳定性、物理合理性和精确的多模态集成方面面临挑战。作者利用统一的大规模架构推出了 Seedance 2.0,这是一种原生多模态音视频生成模型。通过同时支持文本、图像、音频和视频输入,该贡献实现了强大的、高度可控的合成,从而达到了高保真同步和专业级的导演控制。

Top Figure
Top Figure

方法

作者利用 SeedVideoBench 2.0 为视频生成模型建立了一个全面的评估框架,强调多模态任务遵循度和叙事质量。该框架引入了两项主要创新:一个多模态任务评估系统,它将不同模态下的指令遵循和生成一致性形式化;以及一种结合了客观和主观评估的双轨评估方法。客观指标(如运动稳定性)通过自动化流水线计算,而主观评估(侧重于美学和叙事质量)则通过盲审专家评审进行。研究还进行了一项真实性研究,评估人员试图区分模型输出与真实视频片段,其结果为美学微调过程提供了参考。

评估的核心是多模态任务评估模块,它测量四个不同任务组的指令遵循准确性。这些包括:涉及主体、运动、视觉效果和风格生成的参考任务;涵盖主体、风格、场景和音频修改的编辑任务;评估情节延续以及在正向和反向方向上实现无缝时间扩展的扩展任务;以及模拟现实世界工作流(例如将视频主体替换为参考图像)的组合任务。这种细粒度的分类实现了对模型能力的明确表征,解决了以往需要通过试错探测来应对的多模态覆盖范围窄的问题。

一致性通过两个维度进行评估:参考对齐,用于测量生成内容与输入参考的匹配程度;以及编辑一致性,用于评估修改过程中非编辑区域的保留情况。为了确保鲁棒性,研究针对主体、运动、场景、风格和音频构建了专门的数据集,并优化了样本分布,以在有限的评估预算下最小化方差。

在叙事质量方面,SeedVideoBench 2.0 通过引入更细粒度的叙事维度,扩展了现有的生动性和美学指标。与易于客观测量的运动质量不同,叙事质量本质上是主观的,用于评估生成内容是否传达了一个连贯的故事。这通过三个子维度进行评估:电影语言,检查镜头逻辑、表现力以及对 180 度原则和镜头尺寸一致性等电影惯例的遵循程度,以判断镜头调度是否支持叙事;情节设计,评估模型从简短或模糊的提示词中生成引人入胜且连贯叙事的能力;以及风格美学,考虑在光照、构图、色彩分级以及角色、服装、道具和布景的一致性方面的整体视觉连贯性。

Overview of SeedVideoBench 2.0 evaluation framework
Overview of SeedVideoBench 2.0 evaluation framework

实验

Seedance 2.0 使用 SeedVideoBench 2.0 框架并在 Arena.AI 上进行了人类偏好测试,以评估其在文本到视频、图像到视频和基于参考的生成方面的能力。实验验证了该模型在运动稳定性、电影美学、复杂指令遵循和高保真音视频同步方面的卓越性能。总体而言,与现有的商业模型相比,该模型在生成细腻的面部表情、真实的物理动作以及具有层次感且符合上下文的音频方面表现出显著进步。

在复杂的基于参考的图像到视频生成任务中,该模型在所有评估维度上均达到了顶尖性能。它展示了卓越的运动质量、图像保留能力和提示词遵循能力,特别是在高信息密度和多民族场景中。Seedance 2.0 在所有指标上均领先于复杂参考任务。它在运动质量和提示词遵循方面获得了最高分。在保持高信息密度和多民族内容对于参考的一致性方面,它优于竞争对手。

I2V complex reference evaluation
I2V complex reference evaluation

Seedance 2.0 在运动质量和音频相关任务的多个评估维度上均实现了顶尖性能。该模型较之前的版本和竞争对手表现出显著改进,特别是在运动稳定性、物理真实感和音视频同步方面。Seedance 2.0 在运动质量和音视频同步的所有评估维度中排名第一。与之前的版本相比,该模型在物理真实感和运动稳定性方面表现出强劲提升。Seedance 2.0 在音视频对齐和音频表现力方面优于竞争对手。

Seedance 2.0 leads in motion and audio
Seedance 2.0 leads in motion and audio

该表对比了不同模型的音视频性能,Seedance 2.0 在所有类别中的音频质量、音视频同步和音频提示词遵循方面均获得了最高分。它在背景音和特效方面表现出色,在音频表现力和同步性方面显著优于其他模型。Seedance 2.0 在所有评估类别中,音频质量、音视频同步和音频提示词遵循均获得了最高分。该模型在背景音和特效方面表现强劲,在音频质量和同步方面获得了最高评分。Seedance 2.0 在音频表现力以及音频与视觉元素之间的对齐方面显著优于竞争对手。

Audio-visual synchronization leaderboard
Audio-visual synchronization leaderboard

作者在多个视频生成维度上对 Seedance 2.0 进行了评估,结果显示与其他模型相比,它在所有类别中均名列前茅。结果表明,在运动质量、音视频对齐和指令遵循方面有显著改进,特别是在复杂运动和音频相关任务中表现强劲。与竞争模型相比,Seedance 2.0 在所有评估维度上均获得了最高分。该模型在各种复杂场景下的运动质量和音视频同步方面表现出卓越性能。Seedance 2.0 在音频相关任务(包括音频表现力和提示词遵循)中处于领先地位,而其他模型在这些方面表现出明显的弱点。

T2V performance comparison
T2V performance comparison

该表对比了不同视频生成任务对各种参考模态的支持情况。Seedance 2.0 在多种输入模态下支持最全面的参考类型,包括主体、运动、视觉效果、风格和视频编辑。其他模型支持较为有限,其中一些在音视频参考和复杂编辑等关键领域缺乏能力。Seedance 2.0 在所有任务中支持最广泛的参考类型。其他模型缺乏对音视频和复杂参考模态的支持。Seedance 2.0 实现了更广泛的创意和编辑场景。

Multi-modal reference support comparison
Multi-modal reference support comparison

Seedance 2.0 在各种视频生成任务中接受了评估,以验证其在复杂的基于参考的图像到视频生成、音视频同步和多模态参考支持方面的性能。该模型展示了卓越的运动质量、物理真实感和提示词遵循能力,特别是在处理高信息密度内容和多样化族裔时。此外,它实现了出色的音视频对齐,并提供了最全面的参考模态范围,从而比竞争对手能够实现更灵活的创意和编辑场景。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供