2ヶ月前

次世代の10億ユーザー向けテキストツーボイスシステムの構築に向けた取り組み

Gokul Karthik Kumar; Praveen S V; Pratyush Kumar; Mitesh M. Khapra; Karthik Nandakumar
次世代の10億ユーザー向けテキストツーボイスシステムの構築に向けた取り組み
要約

深層学習に基づくテキストから音声への変換(Text-to-Speech, TTS)システムは、モデルアーキテクチャの進歩、訓練手法の改良、話者と言語間での汎化能力向上により急速に進化しています。しかし、これらの進歩がインド言語の音声合成に対して十分に調査されていないという問題があります。インド言語の数と多様性、比較的少ないリソースの可用性、そして未検証の神経ネットワークTTSにおける多様な進歩を考えると、このような調査は計算的に高コストとなります。本論文では、ドラビダ系言語とインド・アーリア系言語に対する音響モデルの選択、ボコーダー、補助的な損失関数、訓練スケジュール、および話者と言語の多様性を評価します。その結果、FastPitchとHiFi-GAN V1を使用し、男性と女性話者のデータを共同で訓練した単一言語モデルが最良の性能を示すことが判明しました。この設定に基づいて、13種類の言語についてTTSモデルを訓練および評価し、平均意見得点(Mean Opinion Score, MOS)によって測定されるすべての言語において既存モデルよりも大幅に性能が向上していることを確認しました。私たちはBhashiniプラットフォーム上で全てのモデルをオープンソース化しました。

次世代の10億ユーザー向けテキストツーボイスシステムの構築に向けた取り組み | 最新論文 | HyperAI超神経