15日前

効率的な音声分類のためのマルチスケール音声スペクトログラムTransformer

Wentao Zhu, Mohamed Omar
効率的な音声分類のためのマルチスケール音声スペクトログラムTransformer
要約

音声イベントは時間的および周波数的領域において階層的な構造を持ち、より抽象的な意味的音声クラスを構成するために統合することができる。本研究では、効率的な音声分類を実現するため、階層的表現学習を採用したマルチスケール音声スペクトログラムTransformer(MAST)を提案する。具体的には、MASTは異なる段階において時間(および周波数)領域に沿って一次元(および二次元)のプーリング演算子を用い、トークン数を段階的に減少させつつ特徴次元を増加させる。外部学習データを用いずに、Kinetics-Sounds、Epic-Kitchens-100、VGGSoundの各データセットにおいて、トップ1精度でAST~\cite{gong2021ast}をそれぞれ22.2%、4.4%、4.7%上回る性能を達成した。また、20%以上が欠損しているとされるダウンロード済みAudioSetデータセットにおいても、MASTはASTよりもわずかに高い精度を実現した。さらに、MASTはASTに比べて乗算加算演算(MACs)が5倍効率的であり、パラメータ数も42%削減されている。クラスタリング評価指標および可視化を通じて、提案手法MASTが音声信号から意味的により分離性の高い特徴表現を学習可能であることを実証した。

効率的な音声分類のためのマルチスケール音声スペクトログラムTransformer | 最新論文 | HyperAI超神経