Zipformer: 자동 음성 인식을 위한 더 빠르고 우수한 인코더

컨포머(Conformer)는 자동 음성 인식(ASR) 분야에서 가장 널리 사용되는 인코더 모델로 자리 잡았다. 이 모델은 트랜스포머에 컨볼루션 모듈을 추가하여 국소적 및 전역적 의존성을 동시에 학습할 수 있도록 설계되어 있다. 본 연구에서는 더 빠르고 메모리 효율적이며 성능이 우수한 새로운 트랜스포머 모델인 '지프포머(Zipformer)'를 제안한다. 주요 모델링 개선 사항은 다음과 같다: 1) 중간 스택이 낮은 프레임 속도로 작동하는 U-넷과 유사한 인코더 구조; 2) 블록 구조를 재구성하여 모듈 수를 늘렸으며, 효율성을 높이기 위해 어텐션 가중치를 재사용함; 3) 길이 정보 일부를 유지할 수 있도록 개선된 레이어 정규화 기법인 '바이어스노름(BiasNorm)' 도입; 4) 기존 스위시(Swish)보다 성능이 우수한 새로운 활성화 함수인 SwooshR과 SwooshL 도입. 또한, 각 텐서의 현재 스케일에 따라 업데이트를 조정하여 상대적 변화량을 일정하게 유지하고, 파라미터 스케일을 명시적으로 학습하는 새로운 옵티마이저인 '스케일드아담(ScaledAdam)'을 제안한다. 이는 기존 Adam보다 더 빠른 수렴 속도와 뛰어난 성능을 보여준다. 리브리스피치(LibriSpeech), 아이셸-1(Aishell-1), 웬엣스피치(WenetSpeech) 데이터셋을 대상으로 수행한 광범위한 실험 결과를 통해, 제안한 지프포머가 기존 최첨단 ASR 모델들에 비해 뛰어난 성능을 발휘함을 입증하였다. 본 연구의 코드는 공개적으로 제공되며, https://github.com/k2-fsa/icefall 에서 확인할 수 있다.