2달 전

LHGNN: 오디오 분류 및 태깅을 위한 로컬-고차 그래프 신경망

Singh, Shubhr ; Benetos, Emmanouil ; Phan, Huy ; Stowell, Dan
LHGNN: 오디오 분류 및 태깅을 위한 로컬-고차 그래프 신경망
초록

트랜스포머는 자기 주의 메커니즘(self-attention mechanisms)을 활용하여 오디오 데이터 내의 복잡한 패턴과 의존성을 포착함으로써 오디오 처리 작업에서 새로운 기준을 설정하였습니다. 그러나 이들의 쌍별 상호작용에 대한 집중은 고차원 관계를 식별하기 위한 필수적인 요소인 구분된 오디오 객체를 처리하는 능력을 제한합니다. 이러한 한계를 해결하기 위해 본 연구에서는 로컬 고차 그래프 신경망(Local-Higher Order Graph Neural Network, LHGNN)을 소개합니다. 이 모델은 퍼지 C-평균 클러스터링(Fuzzy C-Means clusters)에서 얻은 고차원 데이터와 로컬 이웃 정보를 통합하여 특징 이해를 강화함으로써 더 넓은 범위의 오디오 관계를 포착할 수 있습니다. 세 개의 공개된 오디오 데이터셋에서 모델을 평가한 결과, 트랜스포머 기반 모델보다 모든 벤치마크에서 우수한 성능을 보였으며, 동시에 훨씬 적은 매개변수로 작동하였습니다. 또한, 이미지넷(ImageNet) 사전 학습이 부족한 시나리오에서도 LHGNN은 명확한 우위를 보여, 광범위한 사전 학습 데이터가 없는 환경에서의 효율성과 효과성을 입증하였습니다.

LHGNN: 오디오 분류 및 태깅을 위한 로컬-고차 그래프 신경망 | 최신 연구 논문 | HyperAI초신경