SALSA:多音響音響イベント定位および検出のための空間的ヒント拡張型ログスペクトログラム特徴量

音響イベントの局所化と検出(Sound Event Localization and Detection: SELD)は、音響イベント検出と到来方向推定の2つのサブタスクから構成される。音響イベント検出は主に時間周波数パターンに基づいて異なる音響クラスを区別するのに対し、到来方向推定はマイクロホン間の振幅および/または位相差を利用して音源の方向を推定する。このため、両タスクを同時に最適化することは困難である。本研究では、信号のパワーと音源の方向性情報の間で正確な時間周波数マッピングを実現する新しい特徴量「空間的ヒント拡張対数スペクトログラム(Spatial cue-Augmented Log-Spectrogram: SALSA)」を提案する。このマッピングは、重なり合う音源を正確に分離する上で極めて重要である。SALSA特徴量は、各時間周波数ビンにおいて、マルチチャネル対数スペクトログラムを、その時点における空間共分散行列の正規化された主固有ベクトルと連結することで構成される。マイクロホンアレイの形式に応じて、主固有ベクトルの正規化方法を調整することで、マイクロホン間の振幅および/または位相差を効果的に抽出できる。その結果、SALSA特徴量は、1次アンビソニクス(First-Order Ambisonics: FOA)およびマルチチャネルマイクロホンアレイ(Multichannel Microphone Array: MIC)など、さまざまなマイクロホンアレイ形式に適用可能である。TAU-NIGENS Spatial Sound Events 2021データセットを用いた実験において、方向性干渉が存在する条件下で、SALSA特徴量が他の最先端特徴量を上回ることを確認した。特にFOA形式では、SALSA特徴量を用いることで、強度ベクトルを用いたマルチチャネル対数メルスペクトログラムと比較して、F1スコアおよび局所化リコールがそれぞれ6%向上した。またMIC形式では、同様に比較対象のマルチチャネル対数メルスペクトログラムに一般化交差相関スペクトルを用いた手法と比較して、F1スコアは16%、局所化リコールは7%向上した。