2달 전

마스킹된 다중 모드 클러스터 예측을 통한 오디오-비주얼 음성 표현 학습

Shi, Bowen ; Hsu, Wei-Ning ; Lakhotia, Kushal ; Mohamed, Abdelrahman
마스킹된 다중 모드 클러스터 예측을 통한 오디오-비주얼 음성 표현 학습
초록

화자 발화의 비디오 녹화는 화자의 입술 움직임과 생성된 소리에서 연관된 오디오와 시각 정보를 제공하여, 말하기 표현 학습을 위한 강력한 신호를 제공합니다. 우리는 오디오-시각적 말하기에 대한 자기 지도 표현 학습 프레임워크인 오디오-시각적 히든 유닛 BERT (AV-HuBERT)를 소개합니다. 이 모델은 다중 스트림 비디오 입력을 마스킹하고, 자동으로 발견되고 반복적으로 개선되는 다중 모달 히든 유닛을 예측합니다.AV-HuBERT는 입술 읽기와 자동 음성 인식 모두에 도움이 되는 강력한 오디오-시각적 말하기 표현을 학습합니다. 가장 큰 공개 입술 읽기 벤치마크인 LRS3 (433시간)에서 AV-HuBERT는 단 30시간의 라벨링된 데이터로 32.5%의 WER(단어 인식 오류율)을 달성하여, 1,000배 더 많은 전사 비디오 데이터(31,000시간)로 훈련된 기존 최고 성능 접근 방식(33.6%)보다 우수한 결과를 보여주었습니다. LRS3의 모든 433시간의 라벨링된 데이터와 자기 훈련(self-training)을 결합할 경우, 입술 읽기 WER은 더욱 감소하여 26.9%를 기록했습니다. 동일한 벤치마크에서 오디오만 사용하는 음성 인식에 우리의 오디오-시각적 표현을 적용하면, 최고 성능 대비 상대적으로 40%의 WER 감소(1.3% 대비 2.3%)를 이룹니다.우리의 코드와 모델은 https://github.com/facebookresearch/av_hubert 에서 확인할 수 있습니다.