HyperAIHyperAI

Command Palette

Search for a command to run...

波形領域における離散自己教師あり単位を用いた発話スタイル変換

Gallil Maimon Yossi Adi

概要

本稿では、音声のリズム、音高の推移、音色をテキストなしで対象話者に変換する新しい軽量手法であるDISSCを提案する。従来の音声変換(VC)手法の多くは音色に焦点を当てており、個々人の独自の話し方(プロソディ)を無視する傾向にあるが、DISSCはその点を克服している。本手法は、事前学習済みの自己教師ありモデルを用いて音声を離散単位に符号化するため、訓練が簡潔かつ効果的・高速に実行可能である。すべての変換モジュールは、ペアデータを必要としない再構成タスクのみで訓練されるため、ペアデータなしの任意対多数VC(any-to-many VC)に適している。本研究では、このような設定に適した定量化および定性的な評価指標のセットを導入し、実証的にDISSCが評価したベースラインを著しく上回ることを示した。コードおよびサンプルは、https://pages.cs.huji.ac.il/adiyoss-lab/dissc/ にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
波形領域における離散自己教師あり単位を用いた発話スタイル変換 | 記事 | HyperAI超神経