9日前

音声・視覚表現学習:音声基盤モデルからの知識蒸留を用いた手法

Jing-Xuan Zhang, Genshun Wan, Jianqing Gao, Zhen-Hua Ling
音声・視覚表現学習:音声基盤モデルからの知識蒸留を用いた手法
要約

音声・視覚表現学習は、リップリーディングや音声・視覚音声認識などのマルチモーダル音声処理タスクの進展において極めて重要である。近年、音声基盤モデル(Speech Foundation Models: SFMs)は、さまざまな音声関連タスクにおいて顕著な汎化能力を示している。この進展を踏まえ、本研究では、SFMsからのクロスモーダル知識蒸留を活用する音声・視覚表現学習モデルを提案する。本手法では、SFMsを教師モデルとして用い、クリーンな音声入力を用いて多層の隠れ表現を抽出する。さらに、音声・視覚データを入力として受け取る学生モデルに対して、複数の教師モデルを統合するマルチ教師アンサンブル法を導入する。学生モデルの事前学習段階では、新たな表現知識蒸留損失関数を用いて学習を実施し、微調整(fine-tuning)段階でも同様の損失関数を適用することで、下流タスクにおける性能をさらに向上させる。実験では、自己教師型SFMsであるWavLMと教師付きSFMsであるiFLYTEK-speechの両方を用いて検証を行った。その結果、自動音声認識(ASR)、視覚音声認識(VSR)、音声・視覚音声認識(AVSR)の各タスクにおいて、従来の最先端手法と比較して優れた、または同等の性能を達成した。また、本手法の有効性を検証するため、包括的なアブレーションスタディおよび学習された表現の可視化も実施した。