2ヶ月前
Transformerを用いた多面的・多粒度の非ネイティブ英語話者の発音評価
Yuan Gong; Ziyi Chen; Iek-Heng Chu; Peng Chang; James Glass

要約
自動発音評価は、自己主導型言語学習者を支援する重要な技術です。発音の質には正確性、流暢性、完全性、および抑揚(prosody)など、複数の側面がありますが、これまでの研究では通常、一つの粒度(たとえば、音素レベル)で一つの側面(たとえば、正確性)のみをモデル化していました。本研究では、複数の粒度での多面的な発音評価をモデル化することを目指しています。具体的には、Goodness Of Pronunciation特徴量に基づくトランスフォーマー(GOPT)をマルチタスク学習で訓練しました。実験結果は、Librispeechで訓練された公開自動音声認識(ASR)音響モデルを使用した場合、GOPTがspeechocean762において最良の結果を達成していることを示しています。