16일 전
HTS-AT: 소리 분류 및 탐지를 위한 계층적 토큰-의미 음성 트랜스포머
Ke Chen, Xingjian Du, Bilei Zhu, Zejun Ma, Taylor Berg-Kirkpatrick, Shlomo Dubnov

초록
음성 분류는 음성 샘플을 해당 레이블에 매핑하는 중요한 작업이다. 최근 자기 주의(self-attention) 메커니즘을 갖춘 트랜스포머 모델이 이 분야에 도입되고 있다. 그러나 기존의 음성 트랜스포머 모델은 대규모 GPU 메모리와 긴 학습 시간을 요구하며, 높은 성능을 달성하기 위해 사전 학습된 비전 모델에 의존하는 경향이 있어, 음성 작업에서의 확장성에 한계가 있다. 이러한 문제를 해결하기 위해, 우리는 모델 크기와 학습 시간을 줄이기 위해 계층적 구조를 가진 음성 트랜스포머인 HTS-AT을 제안한다. 또한 최종 출력을 클래스 특징맵(class featuremaps)으로 매핑할 수 있도록 토큰-세멘틱 모듈을 추가하여, 음성 이벤트 탐지(즉, 시간적 위치 추정)에 적합한 구조를 구현하였다. 우리는 HTS-AT을 음성 분류를 위한 세 가지 데이터셋에서 평가하였으며, AudioSet과 ESC-50에서는 새로운 최고 성능(SOTA)을 달성하였고, Speech Command V2에서는 기존 SOTA와 동등한 성능을 보였다. 또한 기존의 CNN 기반 모델에 비해 이벤트 위치 추정 성능에서도 우수한 결과를 얻었다. 더불어 HTS-AT은 이전 음성 트랜스포머 모델 대비 모델 파라미터 수의 35%, 학습 시간의 15%만을 요구한다. 이러한 결과는 HTS-AT이 높은 성능과 높은 효율성을 동시에 갖추고 있음을 입증한다.