2달 전
Transformer 기반 다측면 다세분화 비모국어 화자 발음 평가
Yuan Gong; Ziyi Chen; Iek-Heng Chu; Peng Chang; James Glass

초록
자동 발음 평가는 자기 주도적 언어 학습자들을 돕기 위한 중요한 기술입니다. 발음 품질은 정확성, 유창성, 완전성, 그리고 억양을 포함한 여러 측면을 가지고 있지만, 이전 연구에서는 일반적으로 한 가지 측면(예: 정확성)과 하나의 세분화 단위(예: 음소 수준)만 모델링하였습니다. 본 연구에서는 여러 측면과 다수의 세분화 단위에서의 발음 평가 모델링을 탐구합니다. 구체적으로, 우리는 Multi-Task Learning 방식으로 Goodness Of Pronunciation 특징 기반 트랜스포머(GOPT)를 훈련시켰습니다. 실험 결과, GOPT는 Librispeech 데이터셋에서 훈련된 공개 자동 음성 인식(ASR) 음향 모델을 사용하여 Speechocean762에서 가장 우수한 성능을 보였습니다.