チュートリアルが含まれています | 音色複製モデルである GPT-SoVITS は、わずか 5 秒の発話で 95% に似た音声を複製できます

10 个月前

情報

sh.guo

特色图像

「音声」は人間がAIと接触するための「早期教育テクノロジー」であり、実験室から何千もの家庭に導入された最初のAIテクノロジーの1つでもあります。当初、インテリジェント音声の研究は主に音声認識、つまり機械に人間の言語を理解させることに焦点を当てていました。

最も初期のコンピュータベースの音声認識システムは、AT&T ベル研究所によって開発された Audrey で、英語の 10 桁を認識できました。 1988 年、Kai-Fu Lee は、隠れマルコフ モデルに基づいた最初の大語彙音声認識システムである Sphinx を実装しました。 1997 年、消費者向けの世界初の連続音声ディクテーション システムである Dragon NaturallySpeaking が正式にリリースされました。 2009 年、Microsoft は音声機能を Windows 7 オペレーティング システムに統合しました。

2011 年には画期的な製品 iPhone 4S が発売され、Siri の誕生により、インテリジェント音声は認識から「インタラクション」という新たな段階に到達しました。同年、Google は社内で Google 検索のテストを開始し、数日以内に Google.com で音声検索を展開すると発表しました。

聞くことから話すことへの移行は、人間とコンピューターの相互作用の繁栄と発展にとって重要な基礎でもあります。現在、スマートホームからスマートドライブ、ロボットに至るまで、AIの継続的なアップグレードにより音声対話がよりスムーズになり、さまざまなアプリケーションが隆盛を極めています。技術面では、主要なクラウド コンピューティング ベンダーが API の形式で AI 音声機能をオープンソース化しており、開発者はこれに基づいてアプリケーションをさらに構築できるようになります。

近年、大規模なモデルが引き続き人気を集めているため、開発者はモデルのトレーニングと微調整によって、モデルとモデルが開発するアプリケーションの間の展開効果をさらに向上させることができ、モデル レベルでの直接的なオープンソース機能がますます注目を集めています。 。

少し前のことですが、RVC (検索ベースの音声変換) の創設者 (GitHub アカウント: RVC-Boss) は、音声クローン プロジェクト GPT-SoVITS をオープンソース化しました。オンラインでの発売以来、多くのブロガーや開発者が人気の映画やテレビのキャラクター、アニメのキャラクターのサウンドを使用してさまざまなセーリングラインをカスタマイズしており、その効果と簡単な操作体験も人気を集めています。ネチズンのグループは風が吹いて、再び暑さに拍車をかけた。大手ブロガーのテストによると、5 秒間の音声サンプルを提供するだけで、80% ~ 95% の類似性を持つクローン音声を取得できます。

現在、モデル展開チュートリアルが HyperAI 公式 Web サイトで開始されており、クリックしてクローン作成を開始できます。

https://hyper.ai/tutorials/29812

編集者は、オリジナルの神のキャラクターであるパイメンに、『ジェン・ファンの伝説』に女王としてカメオ出演するよう依頼しました。パイメンは数秒でウラナラの女王になります

 Station B の人気アップマン、Jack-Cui 氏が制作した AI サウンド クローン作成チュートリアルは次のとおりです。

https://www.bilibili.com/video/BV1WC411W79t/?spm_id_from=333.788&vd_source=5e54209e1f8c68b7f1dc3df8aabf856c

ステップバイステップのチュートリアルは次のとおりです。音声クローン モデルのトレーニングを開始するには、5 秒間の音声を準備してください。

データの準備

現時点では、このチュートリアルには誰もが体験できる多数の古典的なキャラクター サウンドがプリセットされています。他のサウンドをクローンしたい場合は、MP3 形式でサウンドのオーディオ ファイルを準備する必要があります (できれば 1 つの人間の声 (約 30 秒))。高品質のオーディオ ファイルを使用すると、クローンされたサウンドのリアリズムが向上します。

1. [このチュートリアルをオンラインで実行する] をクリックして、OpenBayes プラットフォームに移動します。

2. 「クローン」をクリックしてモデルをクローンします。 (このステップでは、Station B のマスターである Jack-Cui によってアップロードされたサウンドのみを体験できます)

3. クローンしたサウンドをカスタマイズしたい場合は、新しいデータセットを作成する必要があります。左側のメニューバーの「データセット」を通過した後、「新しいデータセットの作成」をクリックします。

4. 必要に応じて「データセット名」と「データセットの説明」を入力し、「データセットの作成」をクリックします。

5. 作成が完了したら、右上隅の「新しいバージョンをアップロード」をクリックして、クローンしたい音声ファイルをアップロードします。

デモの実行

1. データの準備が完了したら、左側のメニューバーの「公開チュートリアル」にある「GPT-SoVITS Audio Synthesis Online Demo」を開き、チュートリアルページに戻り、右上隅の「Clone」をクリックしてチュートリアルを複製します。自分のコンテナに。

2. 現在、デモは Keli、Hua Fei、Zhen Huan、Fat Orange の音声データにバインドされています。現在バインドされているデータがいっぱいです。不要な音声データを削除して、独自に作成したデータセットを追加できます。

3. 追加が完了したら、「監査と実行」をクリックします。

4. ページに移動したら、「続行」をクリックします。 RTX4090を推奨します。

編集者は全員に新しいユーザー特典を確保しました。新規ユーザーは、以下の招待リンクを使用して登録すると、4 時間の RTX 4090 + 5 時間の無料 CPU コンピューティング パワーを取得できます。

HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーし、開いて登録します):

https://openbayes.com/console/signup?r=Ada0322_QZy7

5. ステータスが「実行中」に変わるまでしばらく待ってから、「ワークスペースを開く」をクリックします。コンテナーを初めてクローンして起動するまでに約 3 ~ 5 分かかります。「リソースの割り当て中」状態が 10 分以上続く場合は、再起動しても解決しない場合は、コンテナーを停止して再起動してみてください。問題がある場合は、公式 Web サイトのプラットフォーム カスタマー サービスにお問い合わせください。

6. ワークスペースを開いたら、左側の「run.ipynb」をクリックし、メニューバーの「実行」ボタンから「すべてのセルを実行」をクリックします。

7. 「パブリック URL で実行中」を見つけてリンクを開きます。

8. 「データセットアドレス」モジュールで、今回サウンドをクローンしたいデータセットのアドレスを入力します。 オーディオデータの種類を選択した後、「トレーニングの開始」をクリックします。 出力結果が「モデル」として表示されます。 「予測を開始しています。お待ちください」。「run.ipynb」に戻ると、「GPT トレーニングが完了しました」と表示されます。

9. 右側の「API アドレス」を開きます。なお、API アドレスアクセス機能を利用するには実名認証が必要です。

エフェクト表示

1. 「GPT モデルリスト」と「SoVITS モデルリスト」でトレーニング済みモデルを選択し、「推論テキスト」にテキストを入力し、「推論開始」をクリックして、少し待つと楽しくプレイできます。

現在、HyperAI 公式 Web サイトでは、Jupyter メモ帳形式にまとめられた、厳選された数百の機械学習関連のチュートリアルを公開しています。

リンクをクリックして、関連するチュートリアルとデータ セットを検索します。

https://hyper.ai/tutorials