
要約
音声スペクトログラム変換器(Audio Spectrogram Transformer)モデルは、音声タグ付け(Audio Tagging)分野において、従来の優位性を誇っていた畳み込みニューラルネットワーク(CNN)を上回る性能を発揮している。その優位性は、AudioSetのような大規模データセットを活用し、モデルのスケーラビリティを高められる点に起因する。しかし、CNNに比べて変換器モデルはモデルサイズおよび計算リソースの要求が非常に高いという課題を抱えている。本研究では、高性能ではあるが複雑な変換器から、オフラインの知識蒸留(Knowledge Distillation, KD)を用いて効率的なCNNの学習プロセスを提案する。提案する学習スキーマとMobileNetV3を基盤とする効率的なCNNアーキテクチャにより、パラメータ数および計算効率、予測性能の面で従来の手法を上回るモデルを実現した。本研究では、低複雑度モデルから高精度モデルまで、複数の複雑度レベルのモデルを提供しており、特にAudioSetにおけるmAPが0.483という新たな最良性能を達成した。ソースコードは以下のURLで公開されている:https://github.com/fschmid56/EfficientAT