15日前
周波数動的畳み込み:音響イベント検出における周波数適応型パターン認識
Hyeonuk Nam, Seong-Hu Kim, Byeong-Yun Ko, Yong-Hwa Park

要約
2次元畳み込みは、音響イベント検出(SED)において、音響イベントの時間周波数パターンを2次元的に認識するために広く用いられている。しかし、2次元畳み込みは時間軸および周波数軸の両方において並進等価性(translation equivariance)を強制する一方で、周波数軸はシフト不変性(shift-invariance)を有しない次元である。SEDにおける2次元畳み込みの物理的整合性を向上させるために、入力の周波数成分に応じてカーネルが適応する「周波数動的畳み込み(frequency dynamic convolution)」を提案する。提案手法は、DESED検証データセットにおいて、多音響音響イベント検出スコア(PSDS)でベースラインより6.3%の性能向上を達成した。また、既存のコンテンツ適応型手法と比較しても、著しく優れた性能を示した。さらに、ベースラインと周波数動的畳み込みのクラスごとのF1スコアを比較することで、特に時間周波数パターンが複雑な非定常音響イベントの検出において、周波数動的畳み込みが顕著に効果的であることが明らかになった。この結果から、周波数動的畳み込みが周波数依存パターンの認識において優れていることが検証された。