2ヶ月前

トークンレベルのアンサンブルディスティレーションによるグラフィーム・トゥ・フォニーム変換

Hao Sun; Xu Tan; Jun-Wei Gan; Hongzhi Liu; Sheng Zhao; Tao Qin; Tie-Yan Liu

要約

グラフエム・トゥー・フォネム（G2P）変換は、自動音声認識およびテキスト・ツー・スピーチシステムにおいて重要なタスクです。最近では、G2P変換がシーケンス・トゥー・シーケンスのタスクとして捉えられ、RNNやCNNに基づくエンコーダー-デコーダーフレームワークでモデル化されています。しかし、これまでの研究では、実際のプロダクションシステムにG2Pモデルを展開する際の実用的な課題が考慮されていませんでした。例えば、追加のラベルなしデータを活用して精度を向上させたり、オンライン展開のためにモデルサイズを削減したりする方法などが挙げられます。本研究では、トークンレベルのアンサンブルディスティレーションを提案します。この手法は（1）追加のラベルなしデータから知識を抽出することで精度を向上させるとともに、（2）モデルサイズを削減しつつ高い精度を維持することができます。これらはオンラインプロダクションシステムにおいて非常に実用的かつ有益です。我々はトークンレベルでの知識ディスティレーションを使用しており、これによりシーケンスレベルでの対応よりも高い精度が得られています。さらに、我々はRNNやCNNベースのモデルではなくTransformerを使用することで、G2P変換の精度をより一層向上させています。公開されているCMUDictデータセットと内部英語データセットにおける実験結果は、提案手法の有効性を示しています。特に、CMUDictデータセットにおいて我々の手法は19.88%のWER（単語誤り率）を達成し、従来の研究よりも4.22%以上のWERで優れており、新しい最先端結果を樹立しています。