11日前

TransformerからCNNへの知識蒸留を活用した効率的な大規模音声タグ付け

Florian Schmid, Khaled Koutini, Gerhard Widmer

要約

音声スペクトログラム変換器（Audio Spectrogram Transformer）モデルは、音声タグ付け（Audio Tagging）分野において、従来の優位性を誇っていた畳み込みニューラルネットワーク（CNN）を上回る性能を発揮している。その優位性は、AudioSetのような大規模データセットを活用し、モデルのスケーラビリティを高められる点に起因する。しかし、CNNに比べて変換器モデルはモデルサイズおよび計算リソースの要求が非常に高いという課題を抱えている。本研究では、高性能ではあるが複雑な変換器から、オフラインの知識蒸留（Knowledge Distillation, KD）を用いて効率的なCNNの学習プロセスを提案する。提案する学習スキーマとMobileNetV3を基盤とする効率的なCNNアーキテクチャにより、パラメータ数および計算効率、予測性能の面で従来の手法を上回るモデルを実現した。本研究では、低複雑度モデルから高精度モデルまで、複数の複雑度レベルのモデルを提供しており、特にAudioSetにおけるmAPが0.483という新たな最良性能を達成した。ソースコードは以下のURLで公開されている：https://github.com/fschmid56/EfficientAT