2ヶ月前

マスクドモデリングデュオ:普遍的な音声事前学習フレームワークへのアプローチ

Daisuke Niizumi; Daiki Takeuchi; Yasunori Ohishi; Noboru Harada; Kunio Kashino
マスクドモデリングデュオ:普遍的な音声事前学習フレームワークへのアプローチ
要約

自己教師あり学習(Self-Supervised Learning: SSL)におけるマスク予測の利用は、汎用音声表現において大きな進歩を遂げています。本研究では、マスク予測SSLを改良した「マスクモデリングデュオ」(Masked Modeling Duo: M2D)を提案します。M2Dは、マスキングされた入力信号の表現を予測することで学習し、その予測結果が訓練信号として機能します。従来の方法とは異なり、M2Dはマスキングされた部分のみをエンコードして訓練信号を得ることで、M2D内の2つのネットワークが入力をモデル化することを促進します。一方で、実世界のアプリケーション(特に産業や医療分野)には専門的な表現が必要です。これらの分野では、しばしば機密性が高く独自性のあるデータが限られた量しか存在せず、事前学習データセットとは異なる分布を持っています。そこで、我々はM2Dを拡張し、特定のアプリケーションX向けに専門的な表現の事前学習を可能にする「M2D for X」(M2D-X)を提案します。M2D-XはM2Dから学びつつ、追加タスクと背景雑音を取り入れます。追加タスクは多様なアプリケーションに対応できるように設定可能であり、背景雑音は少量のデータでの学習を助けつつ、ノイズ除去タスクとして表現の堅牢性を高めます。このような設計選択により、M2D-Xは様々なアプリケーションニーズに特化した表現を学習することが期待されます。我々の実験では、汎用音声向けの表現だけでなく、競争率が高いAudioSetや音声領域向けに特化した表現、そして少量データに基づく医療タスクにおいても最上位レベルの性能が達成されました。これにより、我々のモデルが普遍的な音声事前学習フレームワークとして使用される可能性が示されました。また、将来の研究のために当該コードはオンラインで公開されており、https://github.com/nttcslab/m2d からアクセスできます。