HyperAIHyperAI

Command Palette

Search for a command to run...

TransformerからCNNへの知識蒸留を活用した効率的な大規模音声タグ付け

Florian Schmid Khaled Koutini Gerhard Widmer

概要

音声スペクトログラム変換器(Audio Spectrogram Transformer)モデルは、音声タグ付け(Audio Tagging)分野において、従来の優位性を誇っていた畳み込みニューラルネットワーク(CNN)を上回る性能を発揮している。その優位性は、AudioSetのような大規模データセットを活用し、モデルのスケーラビリティを高められる点に起因する。しかし、CNNに比べて変換器モデルはモデルサイズおよび計算リソースの要求が非常に高いという課題を抱えている。本研究では、高性能ではあるが複雑な変換器から、オフラインの知識蒸留(Knowledge Distillation, KD)を用いて効率的なCNNの学習プロセスを提案する。提案する学習スキーマとMobileNetV3を基盤とする効率的なCNNアーキテクチャにより、パラメータ数および計算効率、予測性能の面で従来の手法を上回るモデルを実現した。本研究では、低複雑度モデルから高精度モデルまで、複数の複雑度レベルのモデルを提供しており、特にAudioSetにおけるmAPが0.483という新たな最良性能を達成した。ソースコードは以下のURLで公開されている:https://github.com/fschmid56/EfficientAT


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています