2달 전

SSAMBA: Mamba 상태 공간 모델을 이용한 자기 지도 음성 표현 학습

Siavash Shams; Sukru Samet Dindar; Xilin Jiang; Nima Mesgarani
SSAMBA: Mamba 상태 공간 모델을 이용한 자기 지도 음성 표현 학습
초록

트랜스포머는 강력한 모델링 능력을 바탕으로 오디오 표현 학습을 포함한 다양한 작업에서 딥 러닝을 혁신시켰습니다. 그러나 트랜스포머는 종종 GPU 메모리 사용과 계산 추론 시간 모두에서 이차 복잡도를 겪어 효율성이 저하되는 문제가 있습니다. 최근에는 이러한 복잡도를 피함으로써 더 효율적인 접근 방식을 제공하는 상태 공간 모델(SSM)인 맘바(Mamba)가 유망한 대안으로 등장하였습니다. 이러한 장점을 고려하여, 본 연구에서는 오디오 작업에서 SSM 기반 모델의 잠재력을 탐구합니다. 본 논문에서는 Self-Supervised Audio Mamba (SSAMBA)를 소개합니다. SSAMBA는 오디오 표현 학습을 위한 첫 번째 자기 감독, 주의력 없이, SSM 기반 모델입니다. SSAMBA는 양방향 맘바를 활용하여 복잡한 오디오 패턴을 효과적으로 포착합니다. 우리는 차별적 및 생성적 목표를 최적화하는 자기 감독 사전 학습 프레임워크를 통합하여, 모델이 대규모 비라벨 데이터셋에서 강건한 오디오 표현을 학습할 수 있도록 하였습니다. SSAMBA는 오디오 분류, 키워드 인식, 화자 식별 등의 다양한 작업에서 평가되었습니다. 결과는 대부분의 작업에서 SSAMBA가 Self-Supervised Audio Spectrogram Transformer (SSAST)보다 우수한 성능을 보임을 입증하였습니다. 특히, 입력 토큰 크기가 22k인 작은 모델 크기에서 SSAMBA는 배치 추론 속도가 약 92.7% 더 빠르고 메모리 효율성이 95.4% 더 높다는 점이 확인되었습니다. 이러한 효율성 증진과 우수한 성능은 SSAMBA의 구조적 혁신 효과를 강조하며, 다양한 오디오 처리 응용 분야에서 매력적인 선택지를 제시하고 있습니다.

SSAMBA: Mamba 상태 공간 모델을 이용한 자기 지도 음성 표현 학습 | 최신 연구 논문 | HyperAI초신경