11일 전
SepTr: 오디오 스펙트로그램 처리를 위한 가분성 트랜스포머
Nicolae-Catalin Ristea, Radu Tudor Ionescu, Fahad Shahbaz Khan

초록
시각 변환기(Vision Transformers)가 여러 컴퓨터 비전 작업에서 성공적으로 적용됨에 따라, 이 모델들은 신호 처리 분야의 주목을 받고 있다. 그 이유는 신호가 종종 스펙트로그램(Spectrogram) 형태로 표현되기 때문이며(예: 이산 푸리에 변환을 통해), 이러한 스펙트로그램은 시각 변환기에 직접 입력할 수 있기 때문이다. 그러나 스펙트로그램에 단순히 변환기를 적용하는 것은 최적의 방법이 아니다. 왜냐하면 축이 서로 다른 차원—즉 주파수와 시간—을 나타내기 때문이며, 우리는 각 축에 대해 별도로 주의(attention)를 분리하는 것이 더 나은 접근 방식이라고 주장한다. 이를 위해 우리는 두 개의 변환기 블록을 순차적으로 사용하는 분리형 변환기(Separable Transformer, SepTr) 아키텍처를 제안한다. 첫 번째 블록은 동일한 시간 간격 내의 토큰들에 대해 주의를 집중시키고, 두 번째 블록은 동일한 주파수 밴드 내의 토큰들에 대해 주의를 집중시킨다. 우리는 세 가지 벤치마크 데이터셋에서 실험을 수행하여, 제안한 분리형 아키텍처가 기존의 시각 변환기 및 기타 최첨단 기법보다 우수한 성능을 보임을 확인하였다. 기존의 표준 변환기와 달리, SepTr는 입력 크기와 선형적으로 훈련 가능한 파라미터 수를 증가시켜 메모리 사용량이 낮은 특성을 지닌다. 본 연구의 코드는 오픈소스로 공개되어 있으며, https://github.com/ristea/septr 에서 확인할 수 있다.