3달 전

베트남어 엔드투엔드 음성 인식을 위한 wav2vec 2.0

{Thai Binh Nguyen}
베트남어 엔드투엔드 음성 인식을 위한 wav2vec 2.0
초록

우리 모델은 13,000시간 분량의 라벨 없는 베트남어 유튜브 음성 데이터(비라벨 데이터)를 기반으로 사전 학습하였으며, 16kHz 샘플링 주파수의 음성 데이터를 사용해 VLSP ASR 데이터셋의 250시간 분량 라벨 데이터를 활용하여 미세 조정(fine-tuning)을 수행하였다. 사전 학습 모델에는 wav2vec2 아키텍처를 사용하였으며, 미세 조정 단계에서는 시퀀스-투-시퀀스 문제, 특히 음성 인식 및 손글씨 인식에 주로 사용되는 연결주의적 시간 분류(Connectionist Temporal Classification, CTC) 알고리즘을 활용하여 wav2vec2를 미세 조정하였다. Vivos 데이터셋에서 우리는 WER(Weror Rate) 점수 6.15를 달성하였다.