17日前

波形領域における離散自己教師あり単位を用いた発話スタイル変換

Gallil Maimon, Yossi Adi

要約

本稿では、音声のリズム、音高の推移、音色をテキストなしで対象話者に変換する新しい軽量手法であるDISSCを提案する。従来の音声変換（VC）手法の多くは音色に焦点を当てており、個々人の独自の話し方（プロソディ）を無視する傾向にあるが、DISSCはその点を克服している。本手法は、事前学習済みの自己教師ありモデルを用いて音声を離散単位に符号化するため、訓練が簡潔かつ効果的・高速に実行可能である。すべての変換モジュールは、ペアデータを必要としない再構成タスクのみで訓練されるため、ペアデータなしの任意対多数VC（any-to-many VC）に適している。本研究では、このような設定に適した定量化および定性的な評価指標のセットを導入し、実証的にDISSCが評価したベースラインを著しく上回ることを示した。コードおよびサンプルは、https://pages.cs.huji.ac.il/adiyoss-lab/dissc/ にて公開されている。