13일 전
다차원 엣지 기반 음향 이벤트 관계 그래프 표현 학습을 통한 음향 장면 분류
Yuanbo Hou, Siyang Song, Chuang Yu, Yuxin Song, Wenwu Wang, Dick Botteldooren

초록
현재까지의 대부분의 딥러닝 기반 음향 장면 분류(ASC) 방법들은 스펙트로그램에서 추출한 표현을 직접 활용하여 대상 장면을 식별한다. 그러나 이러한 접근 방식은 장면 내에서 발생하는 음향 이벤트에 대한 고려가 거의 부족하며, 이는 중요한 의미 정보를 제공한다. 본 논문은 실생활 음향 장면이 오직 제한된 수의 음향 이벤트를 설명하는 특징만을 기반으로 신뢰성 있게 인식할 수 있는지 여부를 처음으로 탐구하는 연구이다. 거시적 음향 장면과 미시적 음향 이벤트 간의 작업 특화된 관계를 모델링하기 위해, 본 연구는 ASC를 위한 이벤트 관계 그래프 표현 학습(ERGL) 프레임워크를 제안한다. 구체적으로 ERGL은 입력 음성에서 음향 장면의 그래프 표현을 학습하며, 각 이벤트의 임베딩을 노드로 간주하고, 각 이벤트 임베딩 쌍에서 유도된 관계 정보를 학습된 다차원 엣지 특징으로 표현한다. 다성분 음향 장면 데이터셋에서의 실험 결과, 제안된 ERGL은 어떠한 데이터 증강 없이도 제한된 수의 음향 이벤트 임베딩만을 사용하여 경쟁적인 ASC 성능을 달성하였다. 제안된 ERGL 프레임워크의 타당성은 다양한 음향 장면을 이벤트 관계 그래프 기반으로 인식하는 것이 가능함을 입증한다. 본 연구의 코드는 홈페이지(https://github.com/Yuanbo2020/ERGL)에서 제공된다.