4ヶ月前

シーケンス・ツー・シーケンス音声認識のモデリング単位の選択について

Kazuki Irie; Rohit Prabhavalkar; Anjuli Kannan; Antoine Bruguier; David Rybach; Patrick Nguyen
シーケンス・ツー・シーケンス音声認識のモデリング単位の選択について
要約

従来の音声認識においては、英語のような非音素言語では音素ベースのモデルが文字ベースのモデルを上回ることが一般的です。この性能差は通常、学習データの量が増加するにつれて縮小します。本研究では、注意機構を用いたエンコーダー-デコーダーモデルにおけるモデリング単位の選択が与える影響を検討しました。LibriSpeech 100時間、460時間、および960時間タスクを使用し、さまざまな目標単位(音素、文字、ワードピース)で実験を行いました。全タスクにわたって、辞書や外部言語モデルなしで評価されたにもかかわらず、文字またはワードピースベースのモデルが一貫して音素ベースのモデルを上回ることが確認されました。また、モデル間の補完性についても調査しました。その結果、強力なワードピースベースの基準モデルから生成されたNベストリストを音素または文字モデルで再スコアリングすることで、相対的に最大9%のWER改善が可能であることがわかりました。しかし、音素システムによって生成されたNベストリストを再スコアリングすることは限られた改善しかもたらしません。さらに分析した結果、ワードピースベースのモデルはより多様なNベスト仮説を生成し、それによりオラクルWERが低くなることが示されました。