17日前

デバイスに頼らない音響シーン分類のための2段階アプローチ

Hu Hu, Chao-Han Huck Yang, Xianjun Xia, Xue Bai, Xin Tang, Yajian Wang, Shutong Niu, Li Chai, Juanjuan Li, Hongning Zhu, Feng Bao, Yuanjun Zhao, Sabato Marco Siniscalchi, Yannan Wang, Jun Du, Chin-Hui Lee

論文の詳細を見る

要約

デバイスのロバスト性を向上させるという、競争力のあるデータ駆動型音響シーン分類（ASC）システムにとって極めて望ましいキーフィーチャーを実現するため、完全畳み込みニューラルネットワーク（CNN）に基づく新規な2段階型システムが提案された。本研究で提唱する2段階システムは、2つのCNN分類器に基づくアドホックなスコア統合を活用しており、(i) 第1のCNNが音響入力を3つの広義のクラスに分類し、(ii) 第2のCNNが同一の入力を10のより細かい粒度のクラスに分類する。2段階分類器の実装には、3種類の異なるCNNアーキテクチャが検討され、周波数のサブサンプリング手法も調査された。さらに、ASCに特化した新しいデータ拡張手法も検討された。DCASE 2020 Task 1aで評価した結果、提案するASCシステムは開発セットにおいて最先端の精度を達成した。特に、CNNアンサンブルの2段階統合により得られた最良のシステムは、マルチデバイステストデータにおいて平均81.9%の精度を達成し、未観測デバイスに対する性能向上も顕著であった。最後に、クラス活性マッピング（CAM）を用いたニューラルサリエンシー解析により、モデルが学習した特徴パターンに関する新たな知見が得られた。