BEATs:音響トーカナイザーを用いた音声事前学習

近年、言語、視覚、音声、音響の分野において、自己教師学習(Self-Supervised Learning, SSL)の規模は著しく拡大している。他のモダリティでは離散ラベル予測が広く採用されている一方で、最先端の音響SSLモデルは依然として再構成損失(reconstruction loss)を事前学習に用いている。再構成損失と比較して、意味的豊かさを持つ離散ラベル予測は、SSLモデルが高次元の音響意味情報を抽出し、人間の知覚と同様に冗長な詳細を無視するよう促す。しかし、音響信号は連続的であり、音声のように明確な音素列が存在しないため、汎用的な音響事前学習に適した意味的豊かな音響トークナイザー(acoustic tokenizer)を直接得ることは困難である。この課題に対処するため、本研究では、音響トランスフォーマー(Audio Transformers)から双方向エンコーダ表現を学習する反復的音響事前学習フレームワーク「BEATs(Bidirectional Encoder representations from Audio Transformers)」を提案する。BEATsでは、音響トークナイザーと音響SSLモデルが交互に最適化される。第1反復では、ランダム射影を音響トークナイザーとして用い、マスクとラベル予測の枠組みで音響SSLモデルを学習する。その後、事前学習済みまたは微調整済みの音響SSLモデルから意味知識を蒸留(distillation)することで、次の反復用の音響トークナイザーを学習する。この反復プロセスを繰り返すことで、音響トークナイザーと音響SSLモデルの相互強化を期待する。実験結果から、本研究で提案する音響トークナイザーは意味的豊かな離散ラベルを生成できること、また、さまざまな音響分類ベンチマークにおいて最先端の性能を達成できることを示した。特に、外部データを一切使用しない音響専用モデルとして、AudioSet-2Mにおいて新しい最先端のmAP 50.6%を達成し、ESC-50では98.1%の精度を記録した。これは、より多くの学習データやパラメータを用いた従来モデルを大きく上回る結果である。コードおよび事前学習済みモデルは、https://aka.ms/beats にて公開されている。