项目概述

LiveCC 由新加坡国立大学 Show Lab 与字节跳动公司于 2025 年 4 月 25 日首次发布，LiveCC 是一个专注于大规模流式语音转录的视频大语言模型项目，该项目旨在通过创新的视频 – 自动语音识别（ASR）流式方法训练出首个具备实时评论能力的视频大语言模型，在流式和离线基准测试中均达到了当前最优（SOTA）水平。相关论文成果为 LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale，已被 CVPR 2025 收录。

本教程采用资源为单卡 RTX A6000 。

运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后，即可与模型进行交互

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 1-2 分钟后刷新页面。

本教程提供两种模块测试： Real-Time Commentary 和 Conversation 模块。

请勿频繁切换模型，以免造成资源堵塞。

各模块功能如下：

Real-Time Commentary

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

本项目引用信息如下：

@inproceedings{livecc, author = {Joya Chen and Ziyun Zeng and Yiqi Lin and Wei Li and Zejun Ma and Mike Zheng Shou}, title = {LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale}, booktitle = {CVPR}, year = {2025}, }

HyperAI

运行此教程在 Discord 上讨论

日期

4 个月前

大小

1.05 GB

标签

多模态

视频描述

许可证

Apache 2.0

GitHub

showlab/livecc

论文 URL

2504.16030

项目概述

本教程采用资源为单卡 RTX A6000 。

项目示例

运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后，即可与模型进行交互

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 1-2 分钟后刷新页面。

本教程提供两种模块测试： Real-Time Commentary 和 Conversation 模块。

请勿频繁切换模型，以免造成资源堵塞。

各模块功能如下：

Real-Time Commentary

引用信息

本项目引用信息如下：

@inproceedings{livecc,
    author       = {Joya Chen and Ziyun Zeng and Yiqi Lin and Wei Li and Zejun Ma and Mike Zheng Shou},
    title        = {LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale},
    booktitle    = {CVPR},
    year         = {2025},
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

4 个月前

大小

1.05 GB

标签

多模态

视频描述

许可证

Apache 2.0

GitHub

showlab/livecc

论文 URL

2504.16030

项目概述

本教程采用资源为单卡 RTX A6000 。

项目示例

运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后，即可与模型进行交互

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 1-2 分钟后刷新页面。

本教程提供两种模块测试： Real-Time Commentary 和 Conversation 模块。

请勿频繁切换模型，以免造成资源堵塞。

各模块功能如下：

Real-Time Commentary

引用信息

本项目引用信息如下：

@inproceedings{livecc,
    author       = {Joya Chen and Ziyun Zeng and Yiqi Lin and Wei Li and Zejun Ma and Mike Zheng Shou},
    title        = {LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale},
    booktitle    = {CVPR},
    year         = {2025},
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

LongCat-Video：美团开源的 AI 视频生成模型

3 个月前

VibeVoice-Realtime TTS：实时语音合成服务

2 个月前

Krea-realtime-video：实时视频生成模型

3 个月前

kyutai-tts-1.6 b-en_fr 音频生成

1 个月前

F5-E2 TTS 只需 3 秒克隆任何音色

2 个月前

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

2 个月前

HunyuanWorld-Mirror：3D 世界生成模型

3 个月前

PixelReasoner-RL：像素级视觉推理模型

3 个月前

SAM3：视觉分割模型

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

LiveCC：实时视频解说大模型

项目概述

项目示例

运行步骤

引用信息

用 AI 构建 AI

HyperAI Newsletters

Command Palette

LiveCC：实时视频解说大模型

项目概述

项目示例

运行步骤

引用信息

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

VibeVoice-Realtime TTS：实时语音合成服务

Krea-realtime-video：实时视频生成模型

kyutai-tts-1.6 b-en_fr 音频生成

F5-E2 TTS 只需 3 秒克隆任何音色

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

HunyuanWorld-Mirror：3D 世界生成模型

PixelReasoner-RL：像素级视觉推理模型

SAM3：视觉分割模型

用 AI 构建 AI

HyperAI Newsletters

Command Palette

LiveCC：实时视频解说大模型

项目概述

项目示例

运行步骤

引用信息

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

VibeVoice-Realtime TTS：实时语音合成服务

Krea-realtime-video：实时视频生成模型

kyutai-tts-1.6 b-en_fr 音频生成

F5-E2 TTS 只需 3 秒克隆任何音色

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

HunyuanWorld-Mirror：3D 世界生成模型

PixelReasoner-RL：像素级视觉推理模型

SAM3：视觉分割模型

用 AI 构建 AI

HyperAI Newsletters

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

VibeVoice-Realtime TTS：实时语音合成服务

Krea-realtime-video：实时视频生成模型

kyutai-tts-1.6 b-en_fr 音频生成

F5-E2 TTS 只需 3 秒克隆任何音色

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

HunyuanWorld-Mirror：3D 世界生成模型

PixelReasoner-RL：像素级视觉推理模型

SAM3：视觉分割模型

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

VibeVoice-Realtime TTS：实时语音合成服务

Krea-realtime-video：实时视频生成模型

kyutai-tts-1.6 b-en_fr 音频生成

F5-E2 TTS 只需 3 秒克隆任何音色

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

HunyuanWorld-Mirror：3D 世界生成模型

PixelReasoner-RL：像素级视觉推理模型

SAM3：视觉分割模型