2달 전

Transformer 기반 다측면 다세분화 비모국어 화자 발음 평가

Yuan Gong; Ziyi Chen; Iek-Heng Chu; Peng Chang; James Glass
Transformer 기반 다측면 다세분화 비모국어 화자 발음 평가
초록

자동 발음 평가는 자기 주도적 언어 학습자들을 돕기 위한 중요한 기술입니다. 발음 품질은 정확성, 유창성, 완전성, 그리고 억양을 포함한 여러 측면을 가지고 있지만, 이전 연구에서는 일반적으로 한 가지 측면(예: 정확성)과 하나의 세분화 단위(예: 음소 수준)만 모델링하였습니다. 본 연구에서는 여러 측면과 다수의 세분화 단위에서의 발음 평가 모델링을 탐구합니다. 구체적으로, 우리는 Multi-Task Learning 방식으로 Goodness Of Pronunciation 특징 기반 트랜스포머(GOPT)를 훈련시켰습니다. 실험 결과, GOPT는 Librispeech 데이터셋에서 훈련된 공개 자동 음성 인식(ASR) 음향 모델을 사용하여 Speechocean762에서 가장 우수한 성능을 보였습니다.

Transformer 기반 다측면 다세분화 비모국어 화자 발음 평가 | 최신 연구 논문 | HyperAI초신경