2달 전

다단계 맥락 인식 모델링 접근법을 이용한 다측면 및 다세분화 발음 평가

Fu-An Chao; Tien-Hong Lo; Tzu-I Wu; Yao-Ting Sung; Berlin Chen
다단계 맥락 인식 모델링 접근법을 이용한 다측면 및 다세분화 발음 평가
초록

자동 발음 평가(Automatic Pronunciation Assessment, APA)는 제2언어(L2) 학습자의 구화 능력을 평가하는 컴퓨터 보조 발음 훈련(Computer-assisted Pronunciation Training, CAPT)에서 중요한 역할을 합니다. 그러나 대부분의 실제 방법들은 각 발화 단위 간의 계층적 및 지역적 맥락 관계를 고려하지 않고 모델링 과정을 병렬로 진행한다는 명백한 단점이 있습니다. 이에 따라 본 논문에서는 다면적이고 다단위 APA를 위한 새로운 계층적 접근 방식을 제안합니다. 구체적으로, 먼저 L2 화자의 더 미묘한 의미 특성을 탐구하기 위해 초음절(sup-phonemes) 개념을 도입합니다. 둘째, 깊이별 분리 컨볼루션 레이어(depth-wise separable convolution layer)를 활용하여 단어 내 수준에서 지역 맥락 정보를 더 효과적으로 포착합니다. 셋째, 점수 제약 주의 풀링 메커니즘(score-restraint attention pooling mechanism)을 사용하여 문장 수준의 점수를 예측하고, 다중태스크 학습(multitask learning, MTL) 프레임워크를 통해 구성 요소 모델들을 최적화합니다. 공개된 벤치마크 데이터셋인 SpeechOcean762에서 수행된 광범위한 실험은 우리의 접근 방식이 최신 기준 모델들에 비해 효과적인 것을 입증하였습니다.

다단계 맥락 인식 모델링 접근법을 이용한 다측면 및 다세분화 발음 평가 | 최신 연구 논문 | HyperAI초신경