2ヶ月前

階層的な発音評価における多面的注意の活用

Heejin Do; Yunsu Kim; Gary Geunbae Lee
階層的な発音評価における多面的注意の活用
要約

自動発音評価は、コンピュータ支援発音訓練システムの主要な構成要素です。詳細なフィードバックを提供するためには、音素、単語、文などの粒度レベルで、正確性、流暢性、完全性など多様な側面から発音を評価することが不可欠です。しかし、既存の多側面多粒度手法はすべての粒度レベルで全ての側面を同時に予測するため、音素、単語、文という言語階層を捉えるのが困難です。この制限により、同じ言語単位内の密接な側面間関係が無視される傾向があります。本論文では、階層的な発音評価と多側面注意(HiPAMA)モデルを提案します。このモデルは粒度レベルを階層的に表現し、その言語構造を直接捉えます。また、同一レベルでの側面間関連性を反映した多側面注意を導入することで、より含蓄のある表現を作り出します。粒度と側面双方からの関係情報を取得することにより、HiPAMAはマルチタスク学習の利点を十分に活用できます。speachocean762データセットでの実験結果において顕著な改善が見られることから、特に評価が難しい側面においてHiPAMAの堅牢性が示されています。

階層的な発音評価における多面的注意の活用 | 最新論文 | HyperAI超神経