3ヶ月前

オーディオ

マルチモーダル

Ziqi Chen Gongyu Chen Yihua Wang Chaofan Ding Zihao Chen Wei-Qiang Zhang

概要

方言話は豊かな文化的・言語的多様性を体現しているが、データの不足、表記法の不統一、音声的変異の複雑さといった課題から、方言用の音声合成（TTS）システムの構築は依然として困難である。本研究では、こうした課題に対処するため、IPA（国際音声記号）に基づく統一された枠組みであるDiaMoE-TTSを提案する。本フレームワークは、音声表現の標準化と、字音変換（G2P）における曖昧さの解消を実現する。F5-TTSアーキテクチャを基盤とし、方言特有の音韻的差異をモデル化するための「方言意識型Mixture-of-Experts（MoE）」を導入するとともに、低ランク適応（LoRA）および条件付適応器（Conditioning Adapters）を用いたパラメータ効率的な適応手法を採用することで、新たな方言への迅速な転移が可能となる。大規模または特許的なリソースに依存する従来手法とは異なり、DiaMoE-TTSはスケーラブルかつオープンデータ駆動型の音声合成を実現する。実験結果から、自然で表現力豊かな音声生成が可能であり、わずか数時間のデータで未観測の方言やピーチンオペラなど特殊な領域に対してもゼロショット性能を達成することが示された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

3ヶ月前

オーディオ

マルチモーダル

Ziqi Chen Gongyu Chen Yihua Wang Chaofan Ding Zihao Chen Wei-Qiang Zhang

概要

方言話は豊かな文化的・言語的多様性を体現しているが、データの不足、表記法の不統一、音声的変異の複雑さといった課題から、方言用の音声合成（TTS）システムの構築は依然として困難である。本研究では、こうした課題に対処するため、IPA（国際音声記号）に基づく統一された枠組みであるDiaMoE-TTSを提案する。本フレームワークは、音声表現の標準化と、字音変換（G2P）における曖昧さの解消を実現する。F5-TTSアーキテクチャを基盤とし、方言特有の音韻的差異をモデル化するための「方言意識型Mixture-of-Experts（MoE）」を導入するとともに、低ランク適応（LoRA）および条件付適応器（Conditioning Adapters）を用いたパラメータ効率的な適応手法を採用することで、新たな方言への迅速な転移が可能となる。大規模または特許的なリソースに依存する従来手法とは異なり、DiaMoE-TTSはスケーラブルかつオープンデータ駆動型の音声合成を実現する。実験結果から、自然で表現力豊かな音声生成が可能であり、わずか数時間のデータで未観測の方言やピーチンオペラなど特殊な領域に対してもゼロショット性能を達成することが示された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています