11 天前

ModelScope 文本生成视频技术报告

Jiuniu Wang, Hangjie Yuan, Dayou Chen, Yingya Zhang, Xiang Wang, Shiwei Zhang
ModelScope 文本生成视频技术报告
摘要

本文介绍了ModelScopeT2V,一种从文本到图像生成模型(即Stable Diffusion)演进而来的文本到视频合成模型。ModelScopeT2V引入了时空块(spatio-temporal blocks),以确保视频帧生成的一致性以及运动过渡的流畅性。该模型在训练与推理阶段均可适应不同数量的帧,因而适用于图像-文本与视频-文本两类数据集。ModelScopeT2V整合了三个核心组件:VQGAN、文本编码器(text encoder)以及去噪UNet,整体参数量达17亿,其中5亿参数专门用于建模时间维度能力。在三项评估指标上,ModelScopeT2V均展现出优于当前先进方法的性能表现。相关代码及在线演示已开放,可通过以下链接访问:\url{https://modelscope.cn/models/damo/text-to-video-synthesis/summary}。

ModelScope 文本生成视频技术报告 | 最新论文 | HyperAI超神经