Command Palette

Search for a command to run...

2日前

DiaMoE-TTS:Mixture-of-Expertsとパラメータ効率的なゼロショット適応を備えた統一的IPAベースの方言TTSフレームワーク

Ziqi Chen Gongyu Chen Yihua Wang Chaofan Ding Zihao Chen Wei-Qiang Zhang

DiaMoE-TTS:Mixture-of-Expertsとパラメータ効率的なゼロショット適応を備えた統一的IPAベースの方言TTSフレームワーク

要約

方言話は豊かな文化的・言語的多様性を体現しているが、データの不足、表記法の不統一、音声的変異の複雑さといった課題から、方言用の音声合成(TTS)システムの構築は依然として困難である。本研究では、こうした課題に対処するため、IPA(国際音声記号)に基づく統一された枠組みであるDiaMoE-TTSを提案する。本フレームワークは、音声表現の標準化と、字音変換(G2P)における曖昧さの解消を実現する。F5-TTSアーキテクチャを基盤とし、方言特有の音韻的差異をモデル化するための「方言意識型Mixture-of-Experts(MoE)」を導入するとともに、低ランク適応(LoRA)および条件付適応器(Conditioning Adapters)を用いたパラメータ効率的な適応手法を採用することで、新たな方言への迅速な転移が可能となる。大規模または特許的なリソースに依存する従来手法とは異なり、DiaMoE-TTSはスケーラブルかつオープンデータ駆動型の音声合成を実現する。実験結果から、自然で表現力豊かな音声生成が可能であり、わずか数時間のデータで未観測の方言やピーチンオペラなど特殊な領域に対してもゼロショット性能を達成することが示された。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
DiaMoE-TTS:Mixture-of-Expertsとパラメータ効率的なゼロショット適応を備えた統一的IPAベースの方言TTSフレームワーク | 論文 | HyperAI超神経