2ヶ月前
g2pM: 新しいオープンベンチマークデータセットに基づく中国語(北京語)のニューラルグラファム・トゥ・フォネム変換パッケージ
Kyubyong Park; Seanie Lee

要約
中国の漢字を音素に変換する(Grapheme-to-Phoneme, G2P)は、普通話のテキスト読み上げ(Text-To-Speech, TTS)システムにおいて重要な要素です。中国語のG2P変換における最大の課題の一つは、多音字(複数の発音を持つ文字)の発音を明確にする方法です。多くの学術的な取り組みが行われていますが、公正な比較のために標準的なベンチマークとなるオープンデータセットがこれまで存在していませんでした。さらに、報告されているほとんどのシステムは、研究者や実務者が便利に中国語テキストをピンインに変換したい場合に利用しにくいという問題があります。これらの動機から、本研究では99,000件以上の文から構成される新しいベンチマークデータセットを紹介します。このデータセットを使用して単純なニューラルネットワークモデルを訓練し、既存の他のG2Pシステムよりも優れた性能を示すことが確認されました。最後に、当プロジェクトをパッケージ化し、PyPi上で公開しました。