MMSpeech: 음성 인식을 위한 다중 모달 다중 작업 인코더-디코더 사전 훈련

본 논문에서는 중국어 자동 음성 인식(ASR)을 위한 새로운 다중 모달 다중 작업 인코더-디코더 사전 훈련 프레임워크(MMSpeech)를 제안한다. 이 프레임워크는 레이블이 없는 음성 데이터와 텍스트 데이터를 모두 활용한다. 음성-텍스트 공동 사전 훈련에서 가장 큰 과제는 음성과 텍스트 모달 간의 극심한 차이에서 비롯되며, 특히 중국어 음성과 텍스트의 경우 더욱 두드러진다. 영어를 비롯한 알파벳 문자 체계를 사용하는 언어와 달리, 중국어는 문자와 발음 간의 직접적인 대응 관계가 약한 의형문자 체계를 사용한다. 따라서 중국어 음성과 텍스트 간의 모달 불변 정보를 효과적으로 포착할 수 있도록 사전 훈련 과정에 음소 모달을 도입하는 방안을 제안한다. 구체적으로, 음성 및 텍스트 데이터를 활용하는 다중 작업 학습 프레임워크를 도입하며, 이에는 5개의 자기지도 학습 및 감독 학습 작업이 포함된다. 엔드투엔드 사전 훈련을 위해, 레이블이 없는 음성 및 텍스트 데이터를 이용하여 자기지도 학습 기반의 음성-가상 코드(S2C) 및 음소-텍스트(P2T) 작업을 도입한다. 이 과정에서 음성-가상 코드 쌍과 음소-텍스트 쌍은 감독 학습을 위한 음성-텍스트 쌍을 보완하는 역할을 한다. 또한, 인코더가 더 나은 음성 표현을 학습할 수 있도록 자기지도 학습 기반의 마스킹 음성 예측(MSP) 및 감독 학습 기반의 음소 예측(PP) 작업을 도입하여 음성을 음소로 매핑하는 능력을 학습한다. 더불어, 사전 훈련 과정에 직접 하류 작업인 감독 학습 기반의 음성-텍스트(S2T) 작업을 통합함으로써, 사전 훈련 성능을 추가로 향상시키고, 미세 조정(fine-tuning) 없이도 우수한 인식 성능을 달성할 수 있다. AISHELL-1 데이터셋에 대한 실험 결과, 제안하는 방법은 기존 사전 훈련 기법 대비 상대적으로 40% 이상의 성능 향상을 달성하며, 최신 기술 수준(SOTA)의 성능을 보였다.