Higgs Audio V2: 音声生成の表現力を再定義

1. チュートリアルの概要

GitHubスター

Higgs Audio V2は、Li Mu氏と彼のチームBoson AIが2025年7月にリリースした大規模音声モデルです。EmergentTTS-Evalにおいて、このモデルは「感情」カテゴリと「質問」カテゴリでそれぞれ「gpt-4o-mini-tts」を75.7%と55.7%上回りました。また、Seed-TTS EvalやEmotional Speech Dataset(ESD)といった従来のTTSベンチマークにおいても、最先端の性能を達成しました。さらに、このモデルは、ナレーション中の自動韻律適応、複数言語における自然な複数話者会話のゼロサンプル生成、クローン音声によるメロディックハミング、音声とBGMの同時生成など、従来のシステムでは稀な機能も実証しました。関連論文の結果は「EmergentTTS-Eval: モデルを判定基準として用いて、複雑な韻律、表現力、言語的課題に対するTTSモデルの評価”。

このチュートリアルでは、RTX 4090 グラフィックカードを1枚使用します。テスト用に、voice-clone、smart-voice、multispeaker-voice-description、single-speaker-voice-description、single-speaker-zh、single-speaker-bgm の6つのサンプルが用意されています。システムプロンプトは英語のみに対応しています。

2. プロジェクト例

音声クローン

スマートボイス

複数話者の音声説明

単一話者の音声説明

単一話者-zh

シングルスピーカーBGM

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

「Bad Gateway」と表示される場合は、モデルが初期化中です。モデルのサイズが大きいため、2~3分ほどお待ちいただき、ページを更新してください。Safariブラウザをご利用の場合、音声が直接再生されない場合がありますので、再生前にダウンロードしてください。

2.1 音声クローン

パラメータの説明

  • 詳細パラメータ:
    • 最大補完トークン数: 生成される音声テキストの長さ(トークン単位)を制限します。値が大きいほど、生成される音声の長さが長くなります。
    • 温度: 生成される出力のランダム性を制御します。低い値(例:0.1)では、出力はより決定論的で再現性が高くなり、高い値(例:1.0)では、出力はより多様で創造的になりますが、一貫性がなくなる可能性があります。
    • Top P: モデルが各ステップで考慮するラベル(累積確率)の範囲を制限します。低い値(0.5など)では出力がより集中的になり、高い値(0.95など)では出力がより多様になります。
    • Top K: 各ステップで最も可能性の高いK個のマーカーのみを選択するようにモデルを制限します。値が小さいほど出力の確実性は高まり、値が大きいほど(または-1で無効にすると)出力の多様性は高まります。
    • RASウィンドウ長: 重複回避機能を有効にし、重複をチェックするテキストウィンドウのサイズを定義します。この機能を無効にするには0に設定します。
    • RAS 最大繰り返し回数: RAS ウィンドウと連動して、ウィンドウ内でコンテンツを繰り返すことができる最大回数を定義します。値を低くすると繰り返し回数が減り、値を大きくするとより自然な繰り返しになります。

2.2 スマートボイス

2.3 マルチスピーカー音声記述

2.4 単一話者の音声記述

2.5インチシングルスピーカー(ZH)

2.6 シングルスピーカーBGM

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@misc{higgsaudio2025,
  author       = {{Boson AI}},
  title        = {{Higgs Audio V2: Redefining Expressiveness in Audio Generation}},
  year         = {2025},
  howpublished = {\url{https://github.com/boson-ai/higgs-audio}},
  note         = {GitHub repository. Release blog available at \url{https://www.boson.ai/blog/higgs-audio-v2}},
}