11일 전

자기지도 학습 모델의 피니튜닝을 통한 엔드투엔드 발음 평가

{Hanaa Bayomi, Khaled T. Wassif, Aly A. Fahmy, Ahmed I. Zahran}
초록

자동 발음 평가 모델은 언어 학습 애플리케이션에서 정기적으로 사용된다. 일반적인 발음 평가 방법론은 발음의 적절성(Goodness-of-Pronunciation, GOP)과 같은 특징 기반 접근 방식이나, 딥러닝 기반 음성 인식 모델을 활용한 음성 평가 방식을 사용한다. 트랜스포머의 등장과 함께 사전 훈련된 자기지도 학습(self-supervised learning, SSL) 모델이 문맥 기반 음성 표현을 추출하는 데 활용되며, 다양한 하류 작업에서 성능 향상을 보여주고 있다. 본 연구에서는 원시 음성 파형(raw speech waveforms)을 입력으로 받아 발음 수준에서의 점수를 산출하는 엔드투엔드 회귀 모델(end-to-end regressor, E2E-R)을 제안한다. E2E-R 모델은 두 단계 훈련 프로세스를 통해 학습된다. 첫 번째 단계에서는 사전 훈련된 SSL 모델을 음소 인식 작업에 대해 미세 조정(fine-tuning)하여 발음된 음소에 대한 보다 우수한 표현을 얻는다. 두 번째 단계에서는 전이 학습(transfer learning) 기법을 활용해, 시엠즈 신경망(Siamese neural network)을 사용하여 발음된 음소 표현을 기준 음소(embeddings of canonical phonemes)와 비교하고 최종 발음 점수를 산출하는 발음 평가 모델을 구축한다. E2E-R는 피어슨 상관 계수(Pearson correlation coefficient, PCC) 0.68을 달성하였으며, 이는 추가적인 모국어 음성 데이터 훈련, 특징 공학(feature engineering), 외부 강제 정렬(forced alignment) 모듈 없이도 최신 기술 수준의 GOPT-PAII 모델과 거의 동등한 성능을 보였다. 본 연구를 통해 사전 훈련된 SSL 모델을 활용한 원시 음성 파형 기반 엔드투엔드 음소 수준 발음 평가의 첫 번째 사례를 제시한 것으로, 지식의 범위 내에서 최초의 시도로 평가된다.

자기지도 학습 모델의 피니튜닝을 통한 엔드투엔드 발음 평가 | 최신 연구 논문 | HyperAI초신경