运行此教程在 Discord 上讨论

日期

4 个月前

大小

2.46 GB

标签

许可证

Apache 2.0

GitHub

QwenLM/Qwen3-Omni

论文 URL

一、教程简介

Build

Qwen3-Omni 是由阿里巴巴通义千问团队于 2025 年 9 月推出的业界首个原生端到端全模态 AI 模型，能够处理文本、图像、音频和视频多种类型的输入，并可通过文本与自然语音实时流式输出结果，解决了长期以来多模态模型需要在不同能力之间进行权衡取舍的难题。相关论文成果为 Qwen3-Omni Technical Report 。

该教程算力资源采用双卡 RTX A6000，提供 Qwen3-Omni-30B-A3B-Instruct 和 Qwen3-Omni-30B-A3B-Thinking 两个模型供测试。

Qwen3-Omni-30B-A3B-Instruct 为 Qwen3-Omni-30B-A3B 的指令模型，包含思考者和说话者，支持音频、视频和文本输入，输出音频和文本。

Qwen3-Omni-30B-A3B-Thinking 为 Qwen3-Omni-30B-A3B 的思考模型，包含思考者组件，具备思维链推理能力，支持音频、视频和文本输入，输出文本。

二、效果展示

在线音频对话

在线视频对话

离线音频对话

离线视频对话

图片理解

三、运行步骤

1. 启动容器

2. 使用步骤

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 3-5 分钟后刷新页面。

在线音频对话

在线视频对话

离线音频对话

离线视频对话

图片理解

参数说明：

System Prompt：系统预设给模型的初始提示。
Temperature：值越小，字幕越「保守」、越确定；值越大，越随机、越有新意。
Top-p：只从概率累加到 p 的「高分词」里挑，p 越小候选越少，文本越保守。
Top-k：只保留概率最高的 k 个词，k 越小候选越少，文本越保守。

四、交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

运行此教程在 Discord 上讨论

日期

4 个月前

大小

2.46 GB

标签

许可证

Apache 2.0

GitHub

QwenLM/Qwen3-Omni

论文 URL

一、教程简介

Build

Qwen3-Omni 是由阿里巴巴通义千问团队于 2025 年 9 月推出的业界首个原生端到端全模态 AI 模型，能够处理文本、图像、音频和视频多种类型的输入，并可通过文本与自然语音实时流式输出结果，解决了长期以来多模态模型需要在不同能力之间进行权衡取舍的难题。相关论文成果为 Qwen3-Omni Technical Report 。

该教程算力资源采用双卡 RTX A6000，提供 Qwen3-Omni-30B-A3B-Instruct 和 Qwen3-Omni-30B-A3B-Thinking 两个模型供测试。

Qwen3-Omni-30B-A3B-Instruct 为 Qwen3-Omni-30B-A3B 的指令模型，包含思考者和说话者，支持音频、视频和文本输入，输出音频和文本。

Qwen3-Omni-30B-A3B-Thinking 为 Qwen3-Omni-30B-A3B 的思考模型，包含思考者组件，具备思维链推理能力，支持音频、视频和文本输入，输出文本。

二、效果展示

在线音频对话

在线视频对话

离线音频对话

离线视频对话

图片理解

三、运行步骤

1. 启动容器

2. 使用步骤

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 3-5 分钟后刷新页面。

在线音频对话

在线视频对话

离线音频对话

离线视频对话

图片理解

参数说明：

System Prompt：系统预设给模型的初始提示。
Temperature：值越小，字幕越「保守」、越确定；值越大，越随机、越有新意。
Top-p：只从概率累加到 p 的「高分词」里挑，p 越小候选越少，文本越保守。
Top-k：只保留概率最高的 k 个词，k 越小候选越少，文本越保守。

四、交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供