HyperAI超神経
17日前

多言語テキストツーティークの最適化:アクセントと感情を考慮して

Pawar, Pranav ; Dwivedi, Akshansh ; Boricha, Jenish ; Gohil, Himanshu ; Dubey, Aditya
多言語テキストツーティークの最適化:アクセントと感情を考慮して
要約

最先端のテキスト・ツー・スピーチ(TTS)システムは、単一言語環境において高い自然度を実現していますが、現在のフレームワークでは文化的ニュアンスの違いにより、多言語アクセント(特にインド系言語)と文脈に適した感情を正確に合成することは依然として困難です。本論文では、アクセントと音訳の保存を統合し、多尺度感情モデリングを行う新しいTTSアーキテクチャを紹介します。特にヒンディー語とインド英語のアクセントに最適化されています。当方針はParler-TTSモデルを拡張し、言語固有の音素アライメントハイブリッドエンコーダー-デコーダーアーキテクチャと、ネイティブ話者コーパスで訓練された文化感覚に基づく感情埋め込み層を統合するとともに、残差ベクトル量子化による動的なアクセントコード切り替えも導入しています。定量的なテストでは、アクセント精度が23.7%向上(単語誤り率が15.4%から11.8%へ減少)、ネイティブ聴取者の感情認識精度が85.3%となり、METTSおよびVECL-TTSベースラインを超える結果を得ました。このシステムの新規性は、リアルタイムでのコードミックス機能にあります。「ナマステ、<ヒンディー語フレーズ>について話し合いましょう」といった発話を無中断でアクセント変換しつつ、感情的一貫性を保つことができます。200人のユーザーによる主観評価では、文化的正しさに関する平均意見得点(MOS)が4.2/5となり、既存の多言語システムよりも大幅に優れています(p<0.01)。本研究はスケーラブルなアクセント-感情分離を示すことでクロスリンガル合成の実現可能性を高めており、南アジアのEdTechやアクセシビリティソフトウェアへの直接的な応用が可能です。