11日前

PSLA:事前学習、サンプリング、ラベリング、アグリゲーションを活用した音声タグ付けの改善

Yuan Gong, Yu-An Chung, James Glass
PSLA:事前学習、サンプリング、ラベリング、アグリゲーションを活用した音声タグ付けの改善
要約

音声タグ付け(audio tagging)は活発な研究分野であり、幅広い応用が期待されている。AudioSetの公開以降、モデル性能の向上には、新規なモデルアーキテクチャやアテンションモジュールの開発が主な要因となってきている。しかし本研究では、AudioSetを用いた音声タグ付けモデルの構築において、適切な学習技術がモデル性能の向上に果たす役割は同様に重要であるにもかかわらず、その重要性が十分に認識されていないことに気づいた。このギャップを埋めるために、本研究ではPSLAと呼ばれる学習技術の集合を提案する。この集合は、ImageNetでの事前学習、バランスサンプリング、データ拡張、ラベル強化、モデルアンサンブルといった技術と、それらの設計選択を含んでおり、モデルの精度を顕著に向上させる効果がある。これらの技術を用いてEfficientNetを学習した結果、パラメータ数1360万の単一モデルとアンサンブルモデルが、それぞれAudioSetにおいて平均精度(mAP)0.444および0.474を達成し、従来の最高性能を記録していた8100万パラメータのモデル(mAP 0.439)を上回った。さらに、本モデルはFSD50Kにおいても新たな最良のmAP(0.567)を達成し、最先端の性能を実現した。

PSLA:事前学習、サンプリング、ラベリング、アグリゲーションを活用した音声タグ付けの改善 | 最新論文 | HyperAI超神経