10일 전

음성 기반 모델로부터의 지식 증류를 통한 음성-시각 표현 학습

Jing-Xuan Zhang, Genshun Wan, Jianqing Gao, Zhen-Hua Ling
음성 기반 모델로부터의 지식 증류를 통한 음성-시각 표현 학습
초록

음성-시각 표현 학습은 입술 읽기 및 음성-시각 음성 인식과 같은 다중모달 음성 처리 과제의 발전에 핵심적인 역할을 한다. 최근, 음성 기반 모델(Speech Foundation Models, SFMs)은 다양한 음성 관련 과제에서 뛰어난 일반화 능력을 보여주고 있다. 이러한 기술 발전을 바탕으로, 우리는 SFMs로부터의 다중모달 지식 전이를 활용한 음성-시각 표현 학습 모델을 제안한다. 본 연구에서 SFMs는 교사 모델로 작용하며, 정제된 음성 입력을 통해 다층 숨겨진 표현을 추출한다. 또한, 음성-시각 데이터를 입력으로 받는 학습자 모델에 대해 다교사 앙상블 기법을 도입하여 지식 전이를 수행한다. 사전 훈련 단계에서는 새로운 표현 지식 전이 손실 함수를 사용하여 학습자 모델을 훈련하며, 이 손실 함수는 후속 미세조정(finetuning) 단계에서도 적용되어 하류 과제에서의 성능을 더욱 향상시킨다. 실험에서는 자기지도 학습 기반 SFM인 WavLM과 감독 학습 기반 SFM인 iFLYTEK-speech를 모두 활용하였다. 실험 결과, 제안하는 방법은 자동 음성 인식, 시각 음성 인식, 음성-시각 음성 인식 등 다양한 과제에서 기존 최고 성능 기준 대비 우수하거나 최소한 동등한 성능을 달성하였다. 또한, 제안된 방법의 효과를 평가하기 위해 체계적인 아블레이션 연구와 학습된 표현의 시각화 분석을 수행하였다.