6ヶ月前

音声および音声処理

オーディオ

マルチモーダル

Matthew Baas Benjamin van Niekerk Herman Kamper

概要

任意対任意音声変換（any-to-any voice conversion）は、ターゲット話者の音声をわずかな例（サンプル）のみを参照として用いて、ソース音声をその話者に変換することを目的としています。近年の手法は実用的な変換結果を達成していますが、その一方で手法の複雑さが増す傾向にあり、結果の再現性や継続的開発が困難になっています。本研究では、シンプルさを重視します。我々は、任意対任意変換に適したシンプルでありながら効果的な手法である「k近傍音声変換（k-nearest neighbors voice conversion, kNN-VC）」を提案します。まず、ソース音声および参照音声の自己教師付き表現（self-supervised representations）を抽出します。ターゲット話者への変換を行う際には、ソース表現の各フレームを、参照表現の中で最も類似するk個の近傍（k-nearest neighbors）の中から選定し、置き換えます。最後に、事前に学習されたボコーダー（vocoder）により、変換された表現から音声を合成します。客観的および主観的評価の結果、kNN-VCは従来手法と同等の話者類似度を達成しつつ、音声の理解性（intelligibility）も同程度であることが示されました。コード、音声サンプル、学習済みモデル：https://bshall.github.io/knn-vc

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

オーディオ

マルチモーダル

Matthew Baas Benjamin van Niekerk Herman Kamper

概要

任意対任意音声変換（any-to-any voice conversion）は、ターゲット話者の音声をわずかな例（サンプル）のみを参照として用いて、ソース音声をその話者に変換することを目的としています。近年の手法は実用的な変換結果を達成していますが、その一方で手法の複雑さが増す傾向にあり、結果の再現性や継続的開発が困難になっています。本研究では、シンプルさを重視します。我々は、任意対任意変換に適したシンプルでありながら効果的な手法である「k近傍音声変換（k-nearest neighbors voice conversion, kNN-VC）」を提案します。まず、ソース音声および参照音声の自己教師付き表現（self-supervised representations）を抽出します。ターゲット話者への変換を行う際には、ソース表現の各フレームを、参照表現の中で最も類似するk個の近傍（k-nearest neighbors）の中から選定し、置き換えます。最後に、事前に学習されたボコーダー（vocoder）により、変換された表現から音声を合成します。客観的および主観的評価の結果、kNN-VCは従来手法と同等の話者類似度を達成しつつ、音声の理解性（intelligibility）も同程度であることが示されました。コード、音声サンプル、学習済みモデル：https://bshall.github.io/knn-vc

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています