
초록
자동 발음 평가는 컴퓨터 보조 발음 훈련 시스템의 주요 구성 요소입니다. 깊이 있는 피드백을 제공하기 위해서는 음소, 단어, 문장과 같은 다양한 세부 수준에서 정확성, 유창성, 완전성과 같은 여러 측면으로 발음을 점수화하는 것이 필수적입니다. 그러나 기존의 다측면 다세부 수준 방법은 모든 세부 수준에서 모든 측면을 동시에 예측하므로, 음소, 단어, 문장의 언어 계층 구조를 포착하는 데 어려움이 있습니다. 이러한 제한은 동일한 언어 단위 내에서의 밀접한 측면 간 관계를 무시하게 만드는 문제를 초래합니다. 본 논문에서는 이러한 문제를 해결하기 위해 세부 수준을 계층적으로 표현하여 그들의 언어 구조를 직접 포착하고, 동일 수준에서 측면 간 연관성을 반영하여 더욱 의미 있는 표현을 생성하는 다측면 주의 메커니즘(Hierarchical Pronunciation Assessment with Multi-aspect Attention, HiPAMA) 모델을 제안합니다. HiPAMA는 세부 수준과 측면 양쪽에서 관계 정보를 획득함으로써 다중 작업 학습의 이점을 최대한 활용할 수 있습니다. speachocean762 데이터셋에 대한 실험 결과에서 눈에 띄는 개선이 이루어져 HiPAMA의 강건성이 특히 평가하기 어려운 측면에서 입증되었습니다.