15일 전

다중스케일 오디오 스펙트로그램 트랜스포머를 통한 효율적인 오디오 분류

Wentao Zhu, Mohamed Omar
다중스케일 오디오 스펙트로그램 트랜스포머를 통한 효율적인 오디오 분류
초록

음성 이벤트는 시간 및 주파수 영역에서 계층적 아키텍처를 가지며, 더 추상적인 의미론적 음성 클래스를 구성하기 위해 그룹화될 수 있다. 본 연구에서는 효율적인 음성 분류를 위해 계층적 표현 학습을 활용하는 다스케일 음성 스펙트로그램 트랜스포머(MAST)를 개발하였다. 구체적으로 MAST는 각 단계에서 시간(및 주파수) 영역에 일차원(또는 이차원) 풀링 연산자를 적용하여 토큰 수를 점진적으로 감소시키고 특징 차원을 증가시킨다. 외부 학습 데이터 없이 Kinetics-Sounds, Epic-Kitchens-100, VGGSound 데이터셋에서 MAST는 AST~\cite{gong2021ast}보다 각각 22.2%, 4.4%, 4.7% 높은 상위-1 정확도를 달성한다. 다운로드된 AudioSet 데이터셋(음성 데이터의 20% 이상이 누락된 경우)에서도 MAST는 AST보다 약간 더 높은 정확도를 기록한다. 또한 MAST는 AST 대비 파라미터 수를 42% 감소시키면서도 연산량(MACs)을 5배 더 효율적으로 처리한다. 클러스터링 지표 및 시각화를 통해 제안하는 MAST가 음성 신호로부터 의미적으로 더 분리 가능한 특징 표현을 학습할 수 있음을 입증하였다.

다중스케일 오디오 스펙트로그램 트랜스포머를 통한 효율적인 오디오 분류 | 최신 연구 논문 | HyperAI초신경