6ヶ月前

音声および音声処理

オーディオ

マルチモーダル

Fengping Tian Chenyang Lyu Xuanfan Ni Haoqin Sun Qingjuan Li Zhiqiang Qian et al

概要

本稿では、音声クローン技術と感情制御型音声合成を統合した多機能音声合成システムを提案する。本研究の目的は、多様な言語的・感情的文脈においても話者の個性を忠実に保持しつつ、高い表現力・制御性・自然さを備えた音声生成を実現するという、長年にわたり課題とされてきた問題に取り組むことにある。本手法では、バッチ内コントラスト学習を用いた効果的な話者・感情の分離機構を導入し、話者個性と感情スタイルを独立して制御可能とする。さらに、滑らかな感情制御を実現するための回転型感情埋め込み統合手法を提案する。包括的な学習および評価を可能とするため、6名のプロフェッショナルな話者による7つの感情カテゴリにわたり合計10時間分の高品質な中国語音声データセット「CSEMOTIONS」を構築した。広範な実験により、本システム「Marco-Voice」が客観的および主観的評価指標において顕著な性能向上を達成することが確認された。包括的な評価と分析の結果、Marco-Voiceは音声の明瞭さと感情の豊かさにおいて競争力のある性能を発揮しており、表現型ニューラル音声合成分野における顕著な進展を示している。本研究のコードとデータセットは、それぞれ以下のURLから公開されている。

https://example.com/code

https://example.com/dataset

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

オーディオ

マルチモーダル

Fengping Tian Chenyang Lyu Xuanfan Ni Haoqin Sun Qingjuan Li Zhiqiang Qian et al

概要

本稿では、音声クローン技術と感情制御型音声合成を統合した多機能音声合成システムを提案する。本研究の目的は、多様な言語的・感情的文脈においても話者の個性を忠実に保持しつつ、高い表現力・制御性・自然さを備えた音声生成を実現するという、長年にわたり課題とされてきた問題に取り組むことにある。本手法では、バッチ内コントラスト学習を用いた効果的な話者・感情の分離機構を導入し、話者個性と感情スタイルを独立して制御可能とする。さらに、滑らかな感情制御を実現するための回転型感情埋め込み統合手法を提案する。包括的な学習および評価を可能とするため、6名のプロフェッショナルな話者による7つの感情カテゴリにわたり合計10時間分の高品質な中国語音声データセット「CSEMOTIONS」を構築した。広範な実験により、本システム「Marco-Voice」が客観的および主観的評価指標において顕著な性能向上を達成することが確認された。包括的な評価と分析の結果、Marco-Voiceは音声の明瞭さと感情の豊かさにおいて競争力のある性能を発揮しており、表現型ニューラル音声合成分野における顕著な進展を示している。本研究のコードとデータセットは、それぞれ以下のURLから公開されている。

https://example.com/code

https://example.com/dataset

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

マルコボイス技術報告書 | 記事 | HyperAI超神経