Command Palette
Search for a command to run...
多層拡張周波数動的畳み込みを用いた音響イベント検出の限界挑戦
多層拡張周波数動的畳み込みを用いた音響イベント検出の限界挑戦
Author Name
概要
周波数動的畳み込み(FDY conv)は音響イベント検出(SED)分野において重要なマイルストーンとなりましたが、複数の基底カーネルを使用することによりモデルサイズが大幅に増加するという問題があります。本研究では、従来の2次元畳み込みとFDY convの出力をそれぞれ静的ブランチと動的ブランチとして連結する部分周波数動的畳み込み(PFD conv)を提案します。PFD-CRNNは、動的ブランチの出力比率を1/8に設定することで、FDY-CRNNから51.9%のパラメータを削減しつつ性能を維持しました。さらに、異なる拡大率を持つ複数の拡大周波数動的畳み込み(DFD conv)ブランチと静的ブランチを単一の畳み込み層内で統合する多段拡大周波数動的畳み込み(MDFD conv)を提案します。最良のMDFD-CRNNは、5つの非拡大FDY Convブランチ、3つの異なる拡大率を持つDFD Convブランチ、および1つの静的ブランチを用いて構成され、クラスごとの中央値フィルタなしでFDY convに対してポリフォニックサウンド検出スコア(PSDS)で3.17%の改善を達成しました。最良のMDFD-CRNNに音響イベントバウンディングボックスを使用した後処理を適用することで、真のPSDS1が0.485となりました。これは外部データセットや事前学習済みモデルを使用せずにDESEDデータセットにおける最先端のスコアです。広範な削減実験を通じて、私たちは複数の動的ブランチだけでなく特定の静的ブランチ比率もSEDに寄与することを見出しました。また、最適なSED性能を得るためには拡大された動的ブランチだけでなく非拡大された動的ブランチも必要であることが明らかになりました。これらの削減実験結果と議論は、FDY conv変種の理解と利用可能性をさらに向上させています。