3日前

マルコボイス技術報告書

Fengping Tian, Chenyang Lyu, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, et al
マルコボイス技術報告書
要約

本稿では、音声クローン技術と感情制御型音声合成を統合した多機能音声合成システムを提案する。本研究の目的は、多様な言語的・感情的文脈においても話者の個性を忠実に保持しつつ、高い表現力・制御性・自然さを備えた音声生成を実現するという、長年にわたり課題とされてきた問題に取り組むことにある。本手法では、バッチ内コントラスト学習を用いた効果的な話者・感情の分離機構を導入し、話者個性と感情スタイルを独立して制御可能とする。さらに、滑らかな感情制御を実現するための回転型感情埋め込み統合手法を提案する。包括的な学習および評価を可能とするため、6名のプロフェッショナルな話者による7つの感情カテゴリにわたり合計10時間分の高品質な中国語音声データセット「CSEMOTIONS」を構築した。広範な実験により、本システム「Marco-Voice」が客観的および主観的評価指標において顕著な性能向上を達成することが確認された。包括的な評価と分析の結果、Marco-Voiceは音声の明瞭さと感情の豊かさにおいて競争力のある性能を発揮しており、表現型ニューラル音声合成分野における顕著な進展を示している。本研究のコードとデータセットは、それぞれ以下のURLから公開されている。 https://example.com/code https://example.com/dataset