Samba-asr: 구조적 상태공간 모델을 활용한 최첨단 음성 인식

우리는 상태공간 모델(SSM)을 기반으로 하며, 새로운 Mamba 아키텍처를 인코더와 디코더 모두에 적용한 최초의 최첨단 자동 음성 인식(ASR) 모델인 Samba ASR를 제안한다. 기존의 트랜스포머 기반 ASR 모델이 자기 주목(self-attention) 메커니즘을 통해 의존성을 모델링하는 데 의존하는 것과 달리, Samba ASR는 효율적인 상태공간 역학을 활용하여 국소적 및 전역적 시계열 의존성을 효과적으로 모델링함으로써 뛰어난 성능 향상을 달성한다. 트랜스포머의 한계인 입력 길이에 따라 제곱적으로 증가하는 계산 복잡도와 장거리 의존성 처리의 어려움을 해결함으로써, Samba ASR는 뛰어난 정확도와 효율성을 동시에 확보한다.실험 결과를 통해 Samba ASR는 다양한 표준 벤치마크에서 기존의 오픈소스 트랜스포머 기반 ASR 모델을 모두 상회하며, ASR 분야에서 새로운 최첨단 기준을 수립함을 입증하였다. 공개 벤치마크 데이터셋에 대한 광범위한 평가 결과, 단어 오류율(WER)에서 상당한 개선이 이루어졌으며, 저자원 환경에서도 경쟁력 있는 성능을 보였다. 또한 Mamba 아키텍처의 계산 효율성과 파라미터 최적화 능력 덕분에, Samba ASR는 다양한 ASR 작업에 대해 확장 가능하고 견고한 솔루션으로서의 가능성을 갖추고 있다.본 연구의 주요 기여는 다음과 같다:- 음성 시퀀스 처리에 있어 상태공간 모델(SSM)이 트랜스포머 기반 모델보다 우수함을 보여주는 새로운 Samba ASR 아키텍처의 제안.- 최첨단 성능을 입증하는 공개 벤치마크에 대한 종합적인 평가.- 계산 효율성, 노이즈에 대한 강건성, 시퀀스 일반화 능력에 대한 분석. 이 연구는 Mamba 기반 SSM이 효율적이고 정확한 ASR를 위한 트랜스포머 없는 대안으로서의 실현 가능성을 강력히 제시한다. 상태공간 모델링의 기술적 진보를 활용함으로써, Samba ASR는 ASR 성능의 새로운 기준을 설정하고, 향후 연구에 중요한 기반을 마련한다.