17일 전

베트남어 엔드투엔드 음성 인식을 위한 wav2vec 2.0

{Thai Binh Nguyen}
초록

우리 모델은 13,000시간 분량의 라벨 없는 베트남어 유튜브 음성 데이터(비라벨 데이터)를 기반으로 사전 학습하였으며, 16kHz 샘플링 주파수의 음성 데이터를 사용해 VLSP ASR 데이터셋의 250시간 분량 라벨 데이터를 활용하여 미세 조정(fine-tuning)을 수행하였다. 사전 학습 모델에는 wav2vec2 아키텍처를 사용하였으며, 미세 조정 단계에서는 시퀀스-투-시퀀스 문제, 특히 음성 인식 및 손글씨 인식에 주로 사용되는 연결주의적 시간 분류(Connectionist Temporal Classification, CTC) 알고리즘을 활용하여 wav2vec2를 미세 조정하였다. Vivos 데이터셋에서 우리는 WER(Weror Rate) 점수 6.15를 달성하였다.

베트남어 엔드투엔드 음성 인식을 위한 wav2vec 2.0 | 최신 연구 논문 | HyperAI초신경