2ヶ月前

エンドツーエンドの環境音分類を用いた1次元畳み込みニューラルネットワーク

Abdoli, Sajjad ; Cardinal, Patrick ; Koerich, Alessandro Lameiras
エンドツーエンドの環境音分類を用いた1次元畳み込みニューラルネットワーク
要約

本論文では、1次元畳み込みニューラルネットワーク(CNN)を用いた環境音分類のエンドツーエンドアプローチを提案します。このネットワークは、オーディオ信号から直接表現を学習します。複数の畳み込み層が使用され、信号の微細な時間構造を捉え、分類タスクに関連する多様なフィルターを学習します。提案されたアプローチは、スライディングウィンドウを使用して信号を重複フレームに分割するため、任意の長さのオーディオ信号に対応できます。異なる入力サイズを考慮した複数のアーキテクチャが評価され、その中には最初の畳み込み層をガマトーンフィルタバンクで初期化するものも含まれています。ガマトーンフィルタバンクは、コヒレアでの人間の聴覚フィルター応答をモデル化します。提案されたエンドツーエンドアプローチの環境音分類性能は、UrbanSound8kデータセット上で評価されました。実験結果は、平均精度が89%であることを示しています。したがって、手作業で特徴量を作成したり2次元表現を使用する既存の最先端手法よりも優れた性能を達成しています。さらに、提案されたアプローチは他の文献で見られるアーキテクチャと比較してパラメータ数が少ないため、訓練に必要なデータ量が減少します。

エンドツーエンドの環境音分類を用いた1次元畳み込みニューラルネットワーク | 最新論文 | HyperAI超神経