Command Palette

Search for a command to run...

美团开源视频生成模型 LongCat-Video,兼具文生视频/图生视频/视频续写三大能力,媲美开闭源顶尖模型

Featured Image

世界模型旨在理解、模拟与预测复杂的现实世界环境,是人工智能在真实场景中实现有效应用的重要基础。在这一框架中,视频生成模型通过其生成过程,逐步压缩并学习几何、语义、物理等多种知识形态,因而被视为构建世界模型的一条关键路径,并有望最终实现对真实物理世界动态的有效模拟与预测。而在视频生成领域,实现高效的长视频生成能力尤为重要。

基于此,美团开源了最新视频生成模型 LongCat-Video,该模型旨在通过统一的架构处理多种视频生成任务,包括文生视频(Text-to-Video)、图生视频(Image-to-Video)以及视频续写(Video-Continuation)。凭借其在通用视频生成任务中的出色表现,LongCat-Video 被研究团队视作向构建真正「世界模型」迈出的坚实一步。

LongCat-Video 的主要特点包括:

* 多任务统一架构。 LongCat-Video 将文生视频、图生视频和视频续写任务统一在一个视频生成框架内,通过条件帧的数量来加以区分;

* 长视频生成能力。 LongCat-Video 基于视频续写任务进行预训练,使其能够生成长达数分钟的视频,并在生成过程中有效避免颜色失真或其他形式的画面质量退化;

* 高效推理。 LongCat-Video 采用「由粗到细」的策略,在几分钟内生成 720p 、 30fps 视频,有效提升了视频生成精度和效率;

* 多奖励强化学习框架(RLHF)的强大性能。 LongCat-Video 采用组相对策略优化(GRPO),通过使用多个奖励进一步提升模型性能,实现了与领先的开源视频生成模型以及最新的商业解决方案相当的性能。

基于内部基准的性能评估,LongCat-Video 在文生视频任务中,在视觉质量和动作质量方面表现出色,其得分几乎与顶尖模型 Wan2.2 持平。在文本对齐、整体质量上,该模型也取得了稳健结果,为用户提供了多维度一致的高质量体验。

基于内部基准测试的文生视频 MOS 评估结果

在图生视频任务中,LongCat-Video 在视觉质量上值得关注,得分领先 Wan2.2 等其他模型,表明其在生成画面质量方面的突出优势。在图像对齐、整体质量等方面,则仍有改进空间。

基于内部基准测试的图生视频 MOS 的评估结果

日前,Cloudflare 出现故障,席卷了包括 X 、 ChatGPT 、 Canva 等在内的大范围互联网应用出现连接失败问题。来看看 LongCat-Video 模拟遇到故障时的反应👇

目前,「LongCat-Video:美团开源的 AI 视频生成模型」已上线至 HyperAI 超神经官网的「教程」板块,点击下方链接即可体验一键部署教程 ⬇️

教程链接:

https://go.hyper.ai/xbXLf

Demo 运行

1. 进入 hyper.ai 首页后,选择「LongCat-Video:美团开源的 AI 视频生成模型」,或进入「教程」页面选择,进入点击「在线运行此教程」。

2. 页面跳转后,点击右上角「Clone」,将该教程克隆至自己的容器中。

注:页面右上角支持切换语言,目前提供中文及英文两种语言,本教程文章以英文为例进行步骤展示。

3. 选择「NVIDIA RTX PRO 6000 Blackwell」以及「PyTorch」镜像,按照需求选择「Pay As You Go(按量付费)」或「Daily Plan/Weekly Plan/Monthly Plan(包日/周/月」,点击「Continue job execution(继续执行)」。

4. 等待分配资源,首次克隆需等待 3 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。

效果演示

进入 Demo 运行界面后,可以选择 Image-to-Video 、 Text-to-Video 、 Long Video 和 Video Continuation 四个示例进行测试。本文选择 Image-to-Video 图生视频进行示例。

将示例图片上传后,输入 Prompt,在「Advanced Options」中可以对生成视频的负面提示词、分辨率、生成过程的随机性起点等参数进行更多设置,以实现更理想的生成效果。

日前,Cloudflare 出现故障,席卷了包括 X 、 ChatGPT 、 Canva 等在内的大范围互联网应用出现连接失败问题。来看看 LongCat-Video 模拟大家遇到故障时的反应👇

以上就是 HyperAI 超神经本期推荐的教程,欢迎大家前来体验!

教程链接:

https://go.hyper.ai/xbXLf

美团开源视频生成模型 LongCat-Video,兼具文生视频/图生视频/视频续写三大能力,媲美开闭源顶尖模型 | 资讯 | HyperAI超神经