17일 전

HuBERT: 숨겨진 유닛의 마스킹 예측을 통한 자기지도 학습 기반 음성 표현 학습

Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed
HuBERT: 숨겨진 유닛의 마스킹 예측을 통한 자기지도 학습 기반 음성 표현 학습
초록

음성 표현 학습을 위한 자기지도 학습 방식은 세 가지 고유한 문제에 직면해 있다. 첫째, 각 입력 발화 내에는 여러 개의 음성 단위가 존재한다. 둘째, 사전 학습 단계 동안 입력 음성 단위에 대한 사전(lexicon)이 존재하지 않는다. 셋째, 음성 단위는 길이가 변동적이며 명시적인 분할(segmentation)이 이루어지지 않는다. 이러한 세 가지 문제를 해결하기 위해 우리는 BERT 유사 예측 손실에 대해 정렬된 타겟 레이블을 제공하기 위해 오프라인 클러스터링 단계를 활용하는 '히든 유닛 BERT(HuBERT)' 방식을 제안한다. 본 연구의 핵심 요소는 예측 손실을 마스킹된 영역에만 적용하는 것이다. 이는 모델이 연속적인 입력에 대해 음성과 언어 모델의 통합된 표현을 학습하도록 강제한다. HuBERT는 할당된 클러스터 레이블의 내재적 품질보다는 비지도 클러스터링 단계의 일관성에 주로 의존한다. 단순한 100개 클러스터의 k-means 교사 모델을 기반으로 두 번의 클러스터링 반복을 수행한 결과, HuBERT 모델은 Librispeech(960h) 및 Libri-light(60,000h) 벤치마크에서 10분, 1시간, 10시간, 100시간, 960시간의 미세조정(fine-tuning) 서브셋에 대해 wav2vec 2.0의 최신 기술 성능을 동등하게 유지하거나 초월하였다. 10억 파라미터 모델을 사용한 경우, 더 도전적인 dev-other 및 test-other 평가 서브셋에서 각각 최대 19%, 13%의 상대적 WER(오류율) 감소를 보였다.

HuBERT: 숨겨진 유닛의 마스킹 예측을 통한 자기지도 학습 기반 음성 표현 학습 | 최신 연구 논문 | HyperAI초신경