HyperAI超神経
Back to Headlines

NVIDIA Riva TTS、多言語対応のリアルタイム音声合成技術が進化

2日前

NVIDIA Riva TTSによる多言語の人間らしいスピーチと音声クローンの強化 人工知能(AI)技術の進展は、デジタルアシスタントや音声エージェントの開発だけではなく、産業界全体の革新を推進しています。テキストから音声への変換(TTS)や自動音声認識(ASR)といったコア技術は、リアルタイム翻訳やインタラクティブなデジタルヒューマンの生成、さらには声を失った人々の音声回復にも貢献しています。NVIDIA Rivaは、オンプレミス、クラウド、端末、組み込みデバイス向けに設計された、リアルタイム音声AIパイプライン構築用の多言語マイクロサービス群です。 Magpie TTS MultilingualとMagpie TTS Zeroshot Magpie TTS MultilingualとMagpie TTS Zeroshotは、ストリーミングアプリケーションに対応したエンコーダー-デコーダー変圧器(Transformer)アーキテクチャに基づいて構築されています。これらのモデルは、トークン化されたテキストと目標話者のリファレンス音声から生成された音響コードを入力として受け取り、目標話者の音声を生成します。両モデルは、過剰な音響生成や誤った解釈など、一般的な問題を解決するために新しい好悪性アライメントフレームワークとクラシフィァーなしガイダンス(CFG)オプティマイゼーション手法を採用しています。 Magpie TTS Multilingualは、英語、スペイン語、フランス語、ドイツ語をサポートしており、リアルタイムの電話応答システムやオーディオブックの生成に適応しています。一方、Magpie TTS Zeroshotは英語のみをサポートしますが、生の電話応答やゲーム内の非プレイヤーキャラクター(NPC)の音声制御に利用できます。このモデルでは、5秒の音声サンプルを使用して目標 talker と同じ音声を合成します。 これらのモデルは、他のオープンソースモデルと比較して少ない訓練データでも最高峰の精度を達成しており、キャラクター誤り率(CER)と単語誤り率(WER)が最低となっています。また、音声の自然さ(MOS)と話者類似性(SMOS)に関しても、人間の評価で最高の得点を得ています。 Magpie TTS Flow Magpie TTS Flowは、離散音響単位(HuBERT)を非自回帰的なトレーニングフレームワーク(E2 TTS)に統合することで、テキスト-音声のアラインメントを学習します。モデルは、未転写データの音響波形を離散ユニットに変換し、未マスクの音響と連結することで単位-音響のアラインメントを学びます。微調整段階では、転写済みデータのテキスト列と目標話者の未マスク参考音声を連結して入力すると、目標話者の音声を生成します。 Magpie TTS Flowは、わずか1K時間未満のペアデータでも低い単語誤り率(WER)と高い話者類似性(SECS-O)を達成します。論文では、効率的なユニットベースのプレートレーニング方法を示すために、70K時間近い大量のペアデータを使用してさらにzero-shot性能が改善されていることが報告されています。3部分の入力(ユーザーのプロンプト、目標話者の音声プロンプト、音声プロンプトの文字起こし)を使って5秒の音声サンプルから音声を合成します。 セキュリティ連携 NVIDIAの信頼性のあるAIイニシアチブの一環として、合成音声の安全で責任ある発展が重視されています。深偽検出や音声検出の大手企業であるPindropとの協力により、不正やなりすましを防ぐためのリアルタイム音声認証と深偽検出が実現されます。Pindrop技術は、銀行業界から大規模コールセンターや小売、エネルギー、保険業界まで幅広く信頼されており、重要コミュニケーションにおける安全性を確保します。 NVIDIA Riva Magpie TTSモデルは、医療、アクセシビリティ、実際の生活に即したリアルタイム音声インタラクションを必要とするさまざまなアプリケーションにとって理想的な選択です。柔軟なアーキテクチャと多言語対応により、高品質で自然な音声合成を可能にしています。

Related Links