Command Palette
Search for a command to run...
Qwen3-Omni: モーダルの限界を突破するオールラウンダー
1. チュートリアルの概要

Qwen3-Omniは、2025年9月にアリババのTongyi Qianwenチームによって発表された業界初のネイティブエンドツーエンドのオムニモーダルAIモデルです。テキスト、画像、音声、ビデオなど、複数の種類の入力を処理し、テキストと自然音声を通じてリアルタイムストリーミングで結果を出力できるため、異なる機能間のトレードオフを必要とするマルチモーダルモデルの長年の問題を解決します。Qwen3-Omni 技術レポート”。
このチュートリアルでは、デュアル GPU RTX A6000 コンピューティング リソースを使用し、テスト用に Qwen3-Omni-30B-A3B-Instruct と Qwen3-Omni-30B-A3B-Thinking の 2 つのモデルを提供します。
Qwen3-Omni-30B-A3B-Instructは、Qwen3-Omni-30B-A3B用の命令モデルです。思考回路とスピーカーを搭載し、音声、ビデオ、テキストの入力をサポートし、音声とテキストを出力します。
Qwen3-Omni-30B-A3B-Thinkingは、Qwen3-Omni-30B-A3Bの思考モデルです。思考者コンポーネントを搭載し、思考連鎖推論機能を備え、音声、ビデオ、テキスト入力をサポートし、テキストを出力します。
2. エフェクト表示
オンライン音声会話

オンラインビデオ会話

オフライン音声会話


オフラインビデオチャット

画像理解

3. 操作手順
1. コンテナを起動します

2. 使用手順
「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、3〜5分ほど待ってページを更新してください。
オンライン音声会話

オンラインビデオ会話

オフライン音声会話

オフラインビデオチャット

画像理解

パラメータの説明:
- システム プロンプト: システムによってモデルに与えられる最初のプロンプト。
- 温度: 値が小さいほど、字幕はより「保守的」かつ確実になります。値が大きいほど、字幕はよりランダムかつ斬新になります。
- Top-p: 確率がpに達する「高得点単語」のみを選択します。pが小さいほど候補数が少なくなり、テキストはより保守的になります。
- Top-k: 最も確率の高いk個の単語のみを保持します。kが小さいほど候補が少なくなり、テキストはより保守的になります。
4. 議論
🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。
