Command Palette
Search for a command to run...
デバイスに頼らない音響シーン分類のための2段階アプローチ
デバイスに頼らない音響シーン分類のための2段階アプローチ
概要
デバイスのロバスト性を向上させるという、競争力のあるデータ駆動型音響シーン分類(ASC)システムにとって極めて望ましいキーフィーチャーを実現するため、完全畳み込みニューラルネットワーク(CNN)に基づく新規な2段階型システムが提案された。本研究で提唱する2段階システムは、2つのCNN分類器に基づくアドホックなスコア統合を活用しており、(i) 第1のCNNが音響入力を3つの広義のクラスに分類し、(ii) 第2のCNNが同一の入力を10のより細かい粒度のクラスに分類する。2段階分類器の実装には、3種類の異なるCNNアーキテクチャが検討され、周波数のサブサンプリング手法も調査された。さらに、ASCに特化した新しいデータ拡張手法も検討された。DCASE 2020 Task 1aで評価した結果、提案するASCシステムは開発セットにおいて最先端の精度を達成した。特に、CNNアンサンブルの2段階統合により得られた最良のシステムは、マルチデバイステストデータにおいて平均81.9%の精度を達成し、未観測デバイスに対する性能向上も顕著であった。最後に、クラス活性マッピング(CAM)を用いたニューラルサリエンシー解析により、モデルが学習した特徴パターンに関する新たな知見が得られた。