2ヶ月前
EAT: 効率的なオーディオトランスフォーマーを用いた自己教師なし事前学習
Chen, Wenxi ; Liang, Yuzhe ; Ma, Ziyang ; Zheng, Zhisheng ; Chen, Xie

要約
音声自己監督学習(Self-Supervised Learning: SSL)の事前学習は、ラベルの付いていない音声データから優れた表現を学習することを目指しており、著しい進歩を遂げています。しかし、事前学習における多大な計算リソースの要求は、音声SSLモデルの潜在的な応用と最適化に大きな障壁となっています。本論文では、画像モダリティでのdata2vec 2.0や音声モダリティでのAudio-MAEの成功に着想を得て、音声SSLにおける効果性と効率性をさらに向上させるため、Efficient Audio Transformer (EAT) を提案します。提案されたEATは、ブートストラップ自己監督学習パラダイムを音声領域に適用しています。新たな発話フレーム目的関数(Utterance-Frame Objective: UFO)が設計され、音響イベントのモデリング能力が強化されます。さらに、マスキング戦略が音声SSL事前学習において重要であることを明らかにし、大規模な逆ブロックマスクを使用することで優れた音声表現が得られることを示しています。実験結果は、EATがAudioSet (AS-2M, AS-20K)、ESC-50、SPC-2などの一連の音声関連タスクで最先端(State-of-the-Art: SOTA)の性能を達成し、既存の音声SSLモデルと比較して最大約15倍の事前学習速度向上を実現していることを示しています。