11日前

TransformerからCNNへの知識蒸留を活用した効率的な大規模音声タグ付け

Florian Schmid, Khaled Koutini, Gerhard Widmer
TransformerからCNNへの知識蒸留を活用した効率的な大規模音声タグ付け
要約

音声スペクトログラム変換器(Audio Spectrogram Transformer)モデルは、音声タグ付け(Audio Tagging)分野において、従来の優位性を誇っていた畳み込みニューラルネットワーク(CNN)を上回る性能を発揮している。その優位性は、AudioSetのような大規模データセットを活用し、モデルのスケーラビリティを高められる点に起因する。しかし、CNNに比べて変換器モデルはモデルサイズおよび計算リソースの要求が非常に高いという課題を抱えている。本研究では、高性能ではあるが複雑な変換器から、オフラインの知識蒸留(Knowledge Distillation, KD)を用いて効率的なCNNの学習プロセスを提案する。提案する学習スキーマとMobileNetV3を基盤とする効率的なCNNアーキテクチャにより、パラメータ数および計算効率、予測性能の面で従来の手法を上回るモデルを実現した。本研究では、低複雑度モデルから高精度モデルまで、複数の複雑度レベルのモデルを提供しており、特にAudioSetにおけるmAPが0.483という新たな最良性能を達成した。ソースコードは以下のURLで公開されている:https://github.com/fschmid56/EfficientAT

TransformerからCNNへの知識蒸留を活用した効率的な大規模音声タグ付け | 最新論文 | HyperAI超神経