2ヶ月前

動的な畳み込みニューラルネットワークを効率的な事前学習音声モデルとしての利用

Schmid, Florian ; Koutini, Khaled ; Widmer, Gerhard
動的な畳み込みニューラルネットワークを効率的な事前学習音声モデルとしての利用
要約

大規模音声データセット(例:AudioSet)の導入により、トランスフォーマーが音声分野を席巻し、多くのタスクにおいてCNNを置き換えて最先端のニューラルネットワークアーキテクチャとなりました。音声スペクトログラムトランスフォーマーは、大規模データセットを活用し、微調整された下流タスクでCNNを上回る強力な事前学習モデルを作成するのに優れています。しかし、現在の人気のある音声スペクトログラムトランスフォーマーは、CNNと比較して計算複雑さが高いため、負荷が大きいという問題があります。最近、我々はトランスフォーマーからCNNへの知識蒸留(Transformer-to-CNN Knowledge Distillation)を用いることで、効率的なCNNが大規模データセットにおいてトランスフォーマーに追いつくだけでなく、それらを上回ることも可能であることを示しました。本研究では、この研究ラインを拡張し、動的非線形層、動的畳み込み層および注意機構から構成される動的CNNブロックを導入することで、効率的なCNNの能力を向上させます。我々は実験を通じて、これらの動的CNNがパフォーマンス-複雑さトレードオフおよびパラメータ効率性の面で伝統的な効率的なCNNを上回ることを示しました。特に大規模なAudioSetにおける音声タギングタスクにおいてその優位性が確認されています。さらに、導入した動的CNNは下流タスクでもより良いパフォーマンスを達成し、スケールアップ性能も良好であり、AudioSetやいくつかの下流タスクにおいてトランスフォーマーと同等かそれ以上の性能を発揮することがわかりました。