15일 전
DTF-AT: 이벤트 분류를 위한 분리형 시간-주파수 음성 트랜스포머
{Philip JB Jackson, Muhammad Awais, Armin Mustafa, Sara Ahmed, Tony Alex}
초록
최근 컴퓨터 비전 분야에서의 광범위한 채택을 계기로, 합성곱 신경망(Convolutional Neural Networks, CNNs)과 Transformer 기반 네트워크는 다양한 음성 분류 및 태깅 작업에서 큰 주목을 받고 있다. 음성 스펙트로그램과 자연 이미지 간의 정보 분포 차이에도 불구하고, 음성 도메인에 특화된 레이어를 활용한 스펙트로그램에서의 효과적인 정보 추출에 대한 탐색은 여전히 제한적이었다. 본 논문에서는 다축 비전 트랜스포머(Multi-Axis Vision Transformer, MaxViT)의 강력한 표현력을 활용하여, 시간, 주파수, 공간, 채널 차원 간의 상호작용을 촉진하는 DTF-AT(Decoupled Time-Frequency Audio Transformer)를 제안한다. 제안된 DTF-AT 아키텍처는 다양한 음성 및 음성 분류 작업에서 철저히 평가되었으며, 일관되게 최신 기준(SOTA) 성능을 새로운 기준으로 설정하였다. 특히 도전적인 AudioSet 2M 분류 작업에서, 모델을 처음부터 학습할 경우 4.4%의 상당한 성능 향상을, ImageNet-1K 사전 학습 가중치로 초기화한 경우 3.2%의 성능 향상을 보였다. 또한 제안된 접근법의 영향력과 효과성을 탐색하기 위해 철저한 아블레이션 연구를 수행하였다. 코드베이스 및 사전 학습된 가중치는 https://github.com/ta012/DTFAT.git 에 공개되어 있다.