Command Palette
Search for a command to run...
Qwen3-Omni:突破模态边界的全能选手
一、教程简介

Qwen3-Omni 是由阿里巴巴通义千问团队于 2025 年 9 月推出的业界首个原生端到端全模态 AI 模型,能够处理文本、图像、音频和视频多种类型的输入,并可通过文本与自然语音实时流式输出结果,解决了长期以来多模态模型需要在不同能力之间进行权衡取舍的难题。相关论文成果为「Qwen3-Omni Technical Report」。
该教程算力资源采用双卡 RTX A6000,提供 Qwen3-Omni-30B-A3B-Instruct 和 Qwen3-Omni-30B-A3B-Thinking 两个模型供测试。
Qwen3-Omni-30B-A3B-Instruct 为 Qwen3-Omni-30B-A3B 的指令模型,包含思考者和说话者,支持音频、视频和文本输入,输出音频和文本。
Qwen3-Omni-30B-A3B-Thinking 为 Qwen3-Omni-30B-A3B 的思考模型,包含思考者组件,具备思维链推理能力,支持音频、视频和文本输入,输出文本。
二、效果展示
在线音频对话

在线视频对话

离线音频对话


离线视频对话

图片理解

三、运行步骤
1. 启动容器

2. 使用步骤
若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 3-5 分钟后刷新页面。
在线音频对话

在线视频对话

离线音频对话

离线视频对话

图片理解

参数说明:
- System Prompt:系统预设给模型的初始提示。
- Temperature:值越小,字幕越「保守」、越确定;值越大,越随机、越有新意。
- Top-p:只从概率累加到 p 的「高分词」里挑,p 越小候选越少,文本越保守。
- Top-k:只保留概率最高的 k 个词,k 越小候选越少,文本越保守。
四、交流探讨
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓
