16日前

スピーカー条件付きWaveRNN:未知のスピーカーおよび録音環境向けのユニバーサルニューラルボコーダーへ向けて

Dipjyoti Paul, Yannis Pantazis, Yannis Stylianou
スピーカー条件付きWaveRNN:未知のスピーカーおよび録音環境向けのユニバーサルニューラルボコーダーへ向けて
要約

深層学習の最近の進展により、単一話者音声合成において人間レベルの性能が達成された。しかし、特に未知の話者や未知の録音品質に対して、これらのシステムを複数話者モデルに拡張する際には、音声品質の面で依然として限界が存在する。たとえば、従来のニューラルボコーダーは訓練時に使用された話者に最適化されており、未知の話者への汎化能力が乏しい。本研究では、WaveRNNの変種として、話者条件付きWaveRNN(SC-WaveRNN)を提案する。本研究の目的は、未知の話者や録音条件に対しても効率的かつ普遍的なボコーダーの開発である。標準的なWaveRNNとは異なり、SC-WaveRNNは話者埋め込み(speaker embeddings)という追加情報を活用することで、話者固有の特徴をより適切に捉えることを可能にする。公開データを用いた訓練により、SC-WaveRNNは主観的および客観的評価指標の両面で、ベースラインのWaveRNNに対して顕著な性能向上を達成した。MOS(Mean Opinion Score)において、既知の話者・既知の録音条件では約23%の向上が得られ、未知の話者・未知の録音条件では最大95%の向上が確認された。さらに、本研究ではゼロショット話者適応に類似した複数話者テキストから音声(TTS)合成システムの実装を拡張した。性能評価において、既知話者に対してはベースラインTTSシステムより60%対15.5%、未知話者に対しては60.9%対32.6%と、本システムが顕著に優れた評価を得た。

スピーカー条件付きWaveRNN:未知のスピーカーおよび録音環境向けのユニバーサルニューラルボコーダーへ向けて | 最新論文 | HyperAI超神経