2ヶ月前

多面的かつ多粒度の発音評価のための階層的な文脈認識モデルアプローチ

Fu-An Chao; Tien-Hong Lo; Tzu-I Wu; Yao-Ting Sung; Berlin Chen

要約

自動発音評価（Automatic Pronunciation Assessment: APA）は、コンピュータ支援発音訓練（Computer-assisted Pronunciation Training: CAPT）において第二言語（L2）学習者の話す能力を評価する上で重要な役割を果たします。しかし、現行の大多数の方法には、異なる音声粒度間の階層的および局所的な文脈関係を考慮せずにモデリングプロセスを並列化するという明らかな欠点があります。本稿では、これを踏まえて、多面的かつ多粒度のAPAのために新しい階層的手法を提案します。具体的には、まず超音素（sup-phonemes）という概念を導入し、L2話者のより微妙な意味論的特性を探ります。次に、深さ方向分離畳み込み層（depth-wise separable convolution layer）を使用して、単語未満のレベルでの局所的な文脈情報をより効果的に抽出します。最後に、スコア制約注意プーリング機構（score-restraint attention pooling mechanism）を用いて文レベルのスコアを予測し、マルチタスク学習（Multitask Learning: MTL）フレームワークで構成モデルを最適化します。公開されているベンチマークデータセットであるSpeechocean762で実施された広範な実験により、当手法が最先端の基準モデルと比較して有効性が示されました。