
要約
任意対任意音声変換(any-to-any voice conversion)は、ターゲット話者の音声をわずかな例(サンプル)のみを参照として用いて、ソース音声をその話者に変換することを目的としています。近年の手法は実用的な変換結果を達成していますが、その一方で手法の複雑さが増す傾向にあり、結果の再現性や継続的開発が困難になっています。本研究では、シンプルさを重視します。我々は、任意対任意変換に適したシンプルでありながら効果的な手法である「k近傍音声変換(k-nearest neighbors voice conversion, kNN-VC)」を提案します。まず、ソース音声および参照音声の自己教師付き表現(self-supervised representations)を抽出します。ターゲット話者への変換を行う際には、ソース表現の各フレームを、参照表現の中で最も類似するk個の近傍(k-nearest neighbors)の中から選定し、置き換えます。最後に、事前に学習されたボコーダー(vocoder)により、変換された表現から音声を合成します。客観的および主観的評価の結果、kNN-VCは従来手法と同等の話者類似度を達成しつつ、音声の理解性(intelligibility)も同程度であることが示されました。コード、音声サンプル、学習済みモデル:https://bshall.github.io/knn-vc