HyperAIHyperAI

Command Palette

Search for a command to run...

オンラインチュートリアル | 500 万時間の音声データに基づいて、Qwen3-TTS は 3 秒の音声複製と微調整を実現します。

Featured Image

生成型AIが「テキスト生成」にとどまらず、真に「話す」ようになると、音声は単なる情報チャネルから、プログラム可能で柔軟な表現媒体へと進化します。多言語コンテンツの作成からリアルタイム音声アシスタント、バーチャルアンカーから没入型インタラクティブシステムまで、テキスト読み上げ(TTS)はマルチモーダルモデルシステムの中核コンポーネントになりつつあります。しかし、機械が自然に、安定して、制御可能に話せるようにし、ストリーミング シナリオでミリ秒レベルの応答を維持するには、音響モデリング機能だけでなく、アーキテクチャ設計とシステム最適化の総合的な強みも必要です。

この技術進化の道筋に沿って、新世代のモデルは、より高い忠実度の追求だけでなく、多言語の一般化能力ときめ細かな制御能力も重視しながら、従来の TTS の限界を打ち破ろうとし始めています。Qwen チームによって最近オープンソース化された Qwen3-TTS は、デュアルトラック言語モデル (LM) アーキテクチャに基づいており、リアルタイムの音声合成を実行しながら出力音声を細かく制御できます。

具体的には、Qwen3-TTSは3秒の音声複製と説明ベースの音声制御をサポートします。10言語をカバーする500万時間以上の音声データでトレーニングされており、2つの音声トークナイザーを搭載しています。

* Qwen-TTS-トークナイザー-25Hz:シングルコードブックコーデックを採用し、セマンティックコンテンツの表現に重点を置き、Qwen-Audio とシームレスに統合でき、ブロック単位の DiT を通じてストリーミング波形の再構築を実現します。

* Qwen-TTS-トークナイザー-12Hz:12.5Hz、16層のマルチコードブック設計と軽量の因果畳み込みネットワーク (causal ConvNet) に基づいて、極めて高いビットレート圧縮と超低遅延のストリーミング出力を実現し、97ミリ秒で最初のパケットを瞬時に出力できます。

広範な実験結果により、この一連のモデルは、TTS 多言語テスト セットや InstructTTSEval などの複数の客観的および主観的ベンチマーク テストで最先端 (SOTA) のパフォーマンスを達成したことがわかりました。

現在、「Qwen3-TTS:高品質で制御可能な多言語音声合成デモ」がHyperAIウェブサイトの「チュートリアル」セクションにアップロードされています。ぜひ3秒の音声クローンを体験してみてください!

オンラインチュートリアル:

https://go.hyper.ai/1xEOr

論文を見る:

https://go.hyper.ai/1X1F4

デモの実行

1. hyper.ai ホームページにアクセスした後、「チュートリアル」ページを選択するか、「その他のチュートリアルを表示」をクリックし、「Qwen3-TTS: 高品質で制御可能な多言語音声合成デモ」を選択して、「このチュートリアルをオンラインで実行」をクリックします。

2. ページがリダイレクトされたら、右上隅の「複製」をクリックして、チュートリアルを独自のコンテナーに複製します。

注:ページの右上で言語を切り替えることができます。現在、中国語と英語が利用可能です。このチュートリアルでは英語で手順を説明します。

3. 「NVIDIA GeForce RTX 5090」と「PyTorch」のイメージを選択し、必要に応じて「Pay As You Go」または「Daily Plan/Weekly Plan/Monthly Plan」を選択し、「ジョブ実行を続行」をクリックします。

HyperAI は新規ユーザーに登録特典を提供しています。わずか $1 で、RTX 5090 のコンピューティング パワーを 20 時間利用できます (元の価格は $7)。リソースは永続的に有効です。

4. リソースが割り当てられるのを待ちます。ステータスが「実行中」に変わったら、「ワークスペースを開く」をクリックしてJupyterワークスペースに入ります。

効果実証

1. ページがリダイレクトされたら、左側の README ページをクリックし、上部の [実行] をクリックします。

2. プロセスが完了したら、右側の API アドレスをクリックしてデモ ページに移動します。

以上が今回HyperAIがおすすめするチュートリアルです。ぜひ皆さんも体験してみてください!

チュートリアルのリンク:https://go.hyper.ai/1xEOr