17일 전

이전 최상위 성능을 기록한 프리지아어 ASR을 향상시키기 위해 XLS-R를 미세 조정하는 방법

{Golshid Shekoufandeh, Dragoș Alexandru Bălan}
초록

자연어 음성 인식(ASR, Automatic Speech Recognition)은 인간의 음성을 텍스트로 변환하는 시스템으로, 인간 소통의 디지털화에서 핵심적인 역할을 한다. 이러한 시스템의 중요성에도 불구하고, 대부분의 ASR 시스템은 영어, 중국어, 스페인어와 같은 자원이 풍부한 언어를 대상으로 설계되어 있어, 프리지아어(Frisian)와 같은 자원이 제한된 언어는 여전히 부족하게 다뤄지고 있다. 이 문제를 해결하기 위해 본 연구는 Common Voice 코퍼스 버전 12.0을 기반으로 훈련된 Wav2Vec 2.0 XLS-R 아키텍처를 기반으로 한 미세조정(fine-tuned)된 ASR 모델을 제안한다. 이 모델은 프리지아어 음성을 텍스트로 변환하는 데 사용된다. 학습률 8e-5를 적용한 본 연구의 ASR 시스템은 15.99%의 단어 오류율(WER, Word Error Rate)을 달성하여 기존 최고 성능 기준인 16.25%를 초과하였으며, 향후 이 분야의 연구를 위한 기준 모델로 기능할 수 있다.

이전 최상위 성능을 기록한 프리지아어 ASR을 향상시키기 위해 XLS-R를 미세 조정하는 방법 | 최신 연구 논문 | HyperAI초신경