6 个月前

Haoxin Chen Menghan Xia Yingqing He Yong Zhang Xiaodong Cun Shaoshu Yang Jinbo Xing Yaofang Liu Qifeng Chen Xintao Wang

摘要

视频生成在学术界与工业界日益受到关注。尽管现有的商业工具能够生成具有一定真实感的视频，但可供研究人员和工程师使用的开源模型仍十分有限。本文提出两种用于高质量视频生成的扩散模型，分别为文本到视频（Text-to-Video, T2V）模型与图像到视频（Image-to-Video, I2V）模型。T2V模型根据给定的文本输入生成视频，而I2V模型则引入额外的图像输入以指导生成过程。我们提出的T2V模型能够生成分辨率为 $1024 \times 576$ 的逼真且具有电影级质量的视频，在生成质量上超越了现有其他开源T2V模型。I2V模型旨在生成严格遵循参考图像内容的视频，有效保留原始图像的语义内容、结构布局与视觉风格。该模型是首个能够将给定图像转化为视频片段的同时满足内容保真约束的开源I2V基础模型。我们相信，这些开源视频生成模型将对社区内的技术进步产生重要推动作用。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Haoxin Chen Menghan Xia Yingqing He Yong Zhang Xiaodong Cun Shaoshu Yang Jinbo Xing Yaofang Liu Qifeng Chen Xintao Wang

摘要

视频生成在学术界与工业界日益受到关注。尽管现有的商业工具能够生成具有一定真实感的视频，但可供研究人员和工程师使用的开源模型仍十分有限。本文提出两种用于高质量视频生成的扩散模型，分别为文本到视频（Text-to-Video, T2V）模型与图像到视频（Image-to-Video, I2V）模型。T2V模型根据给定的文本输入生成视频，而I2V模型则引入额外的图像输入以指导生成过程。我们提出的T2V模型能够生成分辨率为 $1024 \times 576$ 的逼真且具有电影级质量的视频，在生成质量上超越了现有其他开源T2V模型。I2V模型旨在生成严格遵循参考图像内容的视频，有效保留原始图像的语义内容、结构布局与视觉风格。该模型是首个能够将给定图像转化为视频片段的同时满足内容保真约束的开源I2V基础模型。我们相信，这些开源视频生成模型将对社区内的技术进步产生重要推动作用。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供