11일 전

SALSA: 다성음 음향 이벤트 위치 추정 및 탐지를 위한 공간적 신호 증강 로그스펙트로그램 특징

Thi Ngoc Tho Nguyen, Karn N. Watcharasupat, Ngoc Khanh Nguyen, Douglas L. Jones, Woon-Seng Gan
SALSA: 다성음 음향 이벤트 위치 추정 및 탐지를 위한 공간적 신호 증강 로그스펙트로그램 특징
초록

소리 이벤트 로컬라이제이션 및 탐지(Sound Event Localization and Detection, SELD)는 소리 이벤트 탐지와 도래 방향 추정(direction-of-arrival estimation)이라는 두 가지 하위 작업으로 구성된다. 소리 이벤트 탐지는 주로 시간-주파수 패턴을 기반으로 서로 다른 소리 클래스를 구분하는 데 집중하는 반면, 도래 방향 추정은 마이크 간의 진폭 및/또는 위상 차이를 이용하여 소스의 방향을 추정한다. 이러한 특성상 두 작업을 동시에 최적화하는 것은 일반적으로 어렵다. 본 연구에서는 신호 전력과 소스 방향 정보 사이의 정확한 시간-주파수 대응을 보장하는 새로운 특징인 공간 쿠(공간 정보) 보강형 로그 스펙트로그램(Spatial cue-Augmented Log-Spectrogram, SALSA)을 제안한다. 이는 겹쳐진 소리 소스를 효과적으로 구분하는 데 핵심적인 역할을 한다. SALSA 특징은 각 시간-주파수 영역에서 다중채널 로그 스펙트로그램과 해당 영역의 공간 공분산 행렬의 정규화된 주성분 고유벡터(정규화된 주요 고유벡터)를 겹쳐 구성한다. 마이크 어레이 형식에 따라 주성분 고유벡터를 적절히 정규화함으로써 마이크 간의 진폭 및/또는 위상 차이를 효과적으로 추출할 수 있다. 결과적으로 SALSA 특징은 일차 애버슨이크스(FOA, first-order ambisonics) 및 다중채널 마이크 어레이(MIC, multichannel microphone array)와 같은 다양한 마이크 어레이 형식에 적용 가능하다. TAU-NIGENS Spatial Sound Events 2021 데이터셋에서 방향성 간섭이 존재하는 환경에서의 실험 결과, SALSA 특징이 다른 최신 기술의 특징보다 우수한 성능을 보였다. 특히 FOA 형식에서는 SALSA 특징을 사용했을 때 다중채널 로그멜 스펙트로그램에 강도 벡터(intensity vector)를 결합한 기법 대비 F1 점수와 위치 추정 재현율(recall)이 각각 6% 향상되었다. MIC 형식에서는 다중채널 로그멜 스펙트로그램에 일반화된 교차상관계수 스펙트럼을 사용한 경우와 비교해 F1 점수는 16%, 위치 추정 재현율은 7% 향상되었다.

SALSA: 다성음 음향 이벤트 위치 추정 및 탐지를 위한 공간적 신호 증강 로그스펙트로그램 특징 | 최신 연구 논문 | HyperAI초신경