17日前
MT4SSL:複数ターゲットの統合による自己教師付き音声表現学習の強化
Ziyang Ma, Zhisheng Zheng, Changli Tang, Yujin Wang, Xie Chen

要約
本稿では、自己教師学習型音声モデルの学習ターゲットの取得方法に着目し、新たな視点を提示する。我々は、ターゲット抽出器を「オフラインターゲット抽出器(Off-TE)」と「オンラインターゲット抽出器(On-TE)」の二種類に一般化する。この枠組みに基づき、複数のターゲットを統合することで自己教師学習型音声表現学習を強化するという理念から、MT4SSL(Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets)と呼ばれる新たなマルチタスク学習フレームワークを提案する。MT4SSLでは、オフラインターゲット抽出器としてK-means法を、オンラインターゲット抽出器として勾配を計算しない教師ネットワークをそれぞれ採用している。実験結果から、LibriSpeechベンチマークにおいて、従来のSSL手法を著しく上回る性能を達成し、データ量が少ない場合でも、最も優れたモデルと同等、あるいはそれ以上の性能を発揮することが確認された。さらに、オフラインターゲット抽出器とオンラインターゲット抽出器を併用することで、事前学習段階における収束性が向上することも明らかになった。効果と効率の両面において優れた性能を示す本手法について、我々は、自己教師学習型音声モデルにおけるマルチタスク学習を、本研究の視点から行うことが有望なトレンドであると考える。