Command Palette
Search for a command to run...
Ziqi Chen Gongyu Chen Yihua Wang Chaofan Ding Zihao Chen Wei-Qiang Zhang

要約
方言話は豊かな文化的・言語的多様性を体現しているが、データの不足、表記法の不統一、音声的変異の複雑さといった課題から、方言用の音声合成(TTS)システムの構築は依然として困難である。本研究では、こうした課題に対処するため、IPA(国際音声記号)に基づく統一された枠組みであるDiaMoE-TTSを提案する。本フレームワークは、音声表現の標準化と、字音変換(G2P)における曖昧さの解消を実現する。F5-TTSアーキテクチャを基盤とし、方言特有の音韻的差異をモデル化するための「方言意識型Mixture-of-Experts(MoE)」を導入するとともに、低ランク適応(LoRA)および条件付適応器(Conditioning Adapters)を用いたパラメータ効率的な適応手法を採用することで、新たな方言への迅速な転移が可能となる。大規模または特許的なリソースに依存する従来手法とは異なり、DiaMoE-TTSはスケーラブルかつオープンデータ駆動型の音声合成を実現する。実験結果から、自然で表現力豊かな音声生成が可能であり、わずか数時間のデータで未観測の方言やピーチンオペラなど特殊な領域に対してもゼロショット性能を達成することが示された。