Command Palette

Search for a command to run...

オンラインチュートリアル | デバイスベースTTSの最新技術!NeuTTS-Airが0.5Bモデルをベースに3秒の音声クローニングを実現

13時間前
情報
zhaorui
Featured Image

従来の高品質TTS(テキスト読み上げ)モデルは、長年にわたりいくつかの根本的な課題に直面してきました。例えば、コンピューティングリソースとクラウドサービスへの要件が高すぎる場合が多く、中小企業や個人開発者にとって導入が困難な高額なコストが発生します。さらに、これらのモデルの多くは、学習に数十分、あるいは数時間にも及ぶ音声データを必要とします。こうした導入および運用上の要件は、これらのモデルの利用における参入障壁を高めるだけでなく、プライバシーが重視されるシナリオにおけるTTSの適用を制限しています。

最新のオープンソースのエンドツーエンド音声合成モデルである NeuTTS-Air は、TTS の使用に関する課題に対するまったく新しいソリューションを提供します。超リアルな音声合成とリアルタイム音声クローニングをサポートする世界初のローカルで動作するTTS言語モデルとして、0.5B Qwen LLMとNeuCodecオーディオコーデックをベースにしたNeuTTS-Airは、エッジ展開とリアルタイムの音声クローニングにおいて優れた少数ショット学習機能を発揮するだけでなく、埋め込みエージェントやスタイル転送などの新しいシナリオに一般化でき、3秒のオーディオクローニングをサポートし、自然な対話コンテンツを生成します。

実験的評価によれば、NeuTTS Air は、オープンソース モデルの中で最先端 (SOTA) のパフォーマンスを実現します。特にハイパーリアリスティック合成とリアルタイム推論のベンチマークにおいて優れています。学習後にGGML/ONNXのサポートと透かしのメカニズムが導入され、エッジサイドTTSと消費電力最適化の評価においてオープンソース分野をリードし、一部のシナリオではクローズドソースモデルに匹敵する性能を実現しています。さらに注目すべきは、この軽量モデルです。推論はCPU上で実行できます。携帯電話、ラップトップ、Raspberry Pi などのデバイスに適しています。

「CPU への NeuTTS-Air 音声クローニング モデルの導入」のチュートリアル リンク:

https://go.hyper.ai/IP2a2

NeuTTS-Airのリリースは、特にデバイス内展開やリアルタイム音声複製の分野において、効率的で低遅延、そして非常にリアルなTTSに対する業界の需要が急増している時期に実現しました。これにより、開発者がモバイルデバイスやエッジデバイスに高品質のTTSを展開する際のハードルが下がり、「シュール」な音声はもはや大規模なクラウドモデルだけのものではなくなります。

「NeuTTS-Air: 軽量で効率的な音声クローニング モデル」が、HyperAI Web サイト (hyper.ai) の「チュートリアル」セクションで公開されました。ワンクリック展開をぜひご体験ください!

チュートリアルのリンク:

https://go.hyper.ai/EJvsH

デモの実行

1. hyper.ai ホームページにアクセスした後、「チュートリアル」ページを選択するか、「その他のチュートリアルを表示」をクリックし、「NeuTTS-Air: 軽量で効率的な音声複製モデル」を選択して、「このチュートリアルをオンラインで実行」をクリックします。

2. ページがリダイレクトされたら、右上隅の「複製」をクリックして、チュートリアルを独自のコンテナーに複製します。

注:ページの右上で言語を切り替えることができます。現在、中国語と英語が利用可能です。このチュートリアルでは英語で手順を説明します。

3. 「NVIDIA GeForce RTX 5090」と「PyTorch」のイメージを選択し、必要に応じて「Pay As You Go」または「Daily Plan/Weekly Plan/Monthly Plan」を選択し、「ジョブ実行を続行」をクリックします。

4. リソースが割り当てられるまでお待ちください。最初のクローン作成プロセスには約3分かかります。ステータスが「実行中」に変わったら、「APIアドレス」の横にある矢印をクリックしてデモページに移動します。APIアドレスを使用する前に、実名認証を完了する必要がありますのでご注意ください。

効果実証

デモ実行ページに入った後、「参照オーディオ」に参照オーディオをアップロードし、「参照テキスト」テキストボックスに参照テキストを入力し、「生成するテキスト」に複製後の希望するオーディオテキストコンテンツを入力し、「送信」をクリックして、複製されたオーディオが取得されるまで少し待ちます。

以上が今回HyperAIがおすすめするチュートリアルです。ぜひ皆さんも体験してみてください!

チュートリアルのリンク:

https://go.hyper.ai/EJvsH