2달 전

단일 모드 자기 지도 학습을 활용한 다중 모드 오디오-비주얼 음성 인식

Pan, Xichen ; Chen, Peiyu ; Gong, Yichen ; Zhou, Helong ; Wang, Xinbing ; Lin, Zhouhan
단일 모드 자기 지도 학습을 활용한 다중 모드 오디오-비주얼 음성 인식
초록

트랜스포머 기반 모델의 학습은 대량의 데이터를 요구하지만, 다중 모달 환경에서 정렬되고 라벨링된 데이터를 얻는 것은 특히 오디오-비디오 음성 인식(AVSR)에서 비용이 많이 들습니다. 따라서 라벨링되지 않은 단일 모달 데이터를 활용하는 것이 매우 중요합니다. 한편, 대규모 자기 지도 학습(self-supervised learning)의 효과성이 오디오와 시각 모달 모두에서 잘 입증되었지만, 이러한 사전 학습(pre-trained) 모델들을 다중 모달 시나리오에 통합하는 방법은 아직 충분히 연구되지 않았습니다. 본 연구에서는 단일 모달 자기 지도 학습을 활용하여 다중 모달 AVSR을 향상시키는 데 성공했습니다. 구체적으로, 오디오 및 시각 프론트엔드(front-end)는 대규모 단일 모달 데이터셋에서 학습되었습니다. 그 후, 두 프론트엔드의 구성 요소를 더 큰 다중 모달 프레임워크에 통합하여, CTC와 seq2seq 디코딩의 조합을 통해 병렬 오디오-비디오 데이터를 문자로 인식하도록 학습시켰습니다. 우리는 단일 모달 자기 지도 학습으로부터 유래된 두 구성 요소가 잘 협력하여, 미세 조정(fine-tuning)을 통해 다중 모달 프레임워크가 경쟁력 있는 결과를 도출함을 보였습니다. 우리의 모델은 단어 수준과 문장 수준 작업 모두에서 실험적으로 검증되었습니다. 특히 외부 언어 모델 없이도, 제안된 모델은 널리 인정받는 Lip Reading Sentences 2 (LRS2) 데이터셋에서 상당한 마진으로 최신 성능(state-of-the-art performance)을 크게 개선했습니다. 이는 상대적으로 30%의 개선율(relative improvement)을 나타냅니다.