HyperAIHyperAI

Command Palette

Search for a command to run...

Transformerを用いた多面的・多粒度の非ネイティブ英語話者の発音評価

Yuan Gong; Ziyi Chen; Iek-Heng Chu; Peng Chang; James Glass

概要

自動発音評価は、自己主導型言語学習者を支援する重要な技術です。発音の質には正確性、流暢性、完全性、および抑揚(prosody)など、複数の側面がありますが、これまでの研究では通常、一つの粒度(たとえば、音素レベル)で一つの側面(たとえば、正確性)のみをモデル化していました。本研究では、複数の粒度での多面的な発音評価をモデル化することを目指しています。具体的には、Goodness Of Pronunciation特徴量に基づくトランスフォーマー(GOPT)をマルチタスク学習で訓練しました。実験結果は、Librispeechで訓練された公開自動音声認識(ASR)音響モデルを使用した場合、GOPTがspeechocean762において最良の結果を達成していることを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています