HyperAIHyperAI

Command Palette

Search for a command to run...

トークンレベルのアンサンブルディスティレーションによるグラフィーム・トゥ・フォニーム変換

Hao Sun Xu Tan Jun-Wei Gan Hongzhi Liu Sheng Zhao Tao Qin Tie-Yan Liu

概要

グラフエム・トゥー・フォネム(G2P)変換は、自動音声認識およびテキスト・ツー・スピーチシステムにおいて重要なタスクです。最近では、G2P変換がシーケンス・トゥー・シーケンスのタスクとして捉えられ、RNNやCNNに基づくエンコーダー-デコーダーフレームワークでモデル化されています。しかし、これまでの研究では、実際のプロダクションシステムにG2Pモデルを展開する際の実用的な課題が考慮されていませんでした。例えば、追加のラベルなしデータを活用して精度を向上させたり、オンライン展開のためにモデルサイズを削減したりする方法などが挙げられます。本研究では、トークンレベルのアンサンブルディスティレーションを提案します。この手法は(1)追加のラベルなしデータから知識を抽出することで精度を向上させるとともに、(2)モデルサイズを削減しつつ高い精度を維持することができます。これらはオンラインプロダクションシステムにおいて非常に実用的かつ有益です。我々はトークンレベルでの知識ディスティレーションを使用しており、これによりシーケンスレベルでの対応よりも高い精度が得られています。さらに、我々はRNNやCNNベースのモデルではなくTransformerを使用することで、G2P変換の精度をより一層向上させています。公開されているCMUDictデータセットと内部英語データセットにおける実験結果は、提案手法の有効性を示しています。特に、CMUDictデータセットにおいて我々の手法は19.88%のWER(単語誤り率)を達成し、従来の研究よりも4.22%以上のWERで優れており、新しい最先端結果を樹立しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています