HyperAIHyperAI

Command Palette

Search for a command to run...

エンドツーエンドの環境音分類を用いた1次元畳み込みニューラルネットワーク

Sajjad Abdoli Patrick Cardinal Alessandro Lameiras Koerich

概要

本論文では、1次元畳み込みニューラルネットワーク(CNN)を用いた環境音分類のエンドツーエンドアプローチを提案します。このネットワークは、オーディオ信号から直接表現を学習します。複数の畳み込み層が使用され、信号の微細な時間構造を捉え、分類タスクに関連する多様なフィルターを学習します。提案されたアプローチは、スライディングウィンドウを使用して信号を重複フレームに分割するため、任意の長さのオーディオ信号に対応できます。異なる入力サイズを考慮した複数のアーキテクチャが評価され、その中には最初の畳み込み層をガマトーンフィルタバンクで初期化するものも含まれています。ガマトーンフィルタバンクは、コヒレアでの人間の聴覚フィルター応答をモデル化します。提案されたエンドツーエンドアプローチの環境音分類性能は、UrbanSound8kデータセット上で評価されました。実験結果は、平均精度が89%であることを示しています。したがって、手作業で特徴量を作成したり2次元表現を使用する既存の最先端手法よりも優れた性能を達成しています。さらに、提案されたアプローチは他の文献で見られるアーキテクチャと比較してパラメータ数が少ないため、訓練に必要なデータ量が減少します。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています