3달 전

Squeezeformer: 자동 음성 인식을 위한 효율적인 Transformer

Sehoon Kim, Amir Gholami, Albert Shaw, Nicholas Lee, Karttikeya Mangalam, Jitendra Malik, Michael W. Mahoney, Kurt Keutzer
Squeezeformer: 자동 음성 인식을 위한 효율적인 Transformer
초록

최근에 제안된 Conformer 모델은 지역적 및 전역적 특징을 동시에 포착할 수 있는 하이브리드 주의-합성곱 아키텍처를 기반으로, 다양한 하류 음성 작업의 사실상 표준 백본 모델로 자리 잡았다. 그러나 체계적인 연구를 통해 Conformer 아키텍처의 설계 선택이 최적화되지 않았음을 발견하였다. Conformer의 매크로 및 마이크로 아키텍처에 대한 재검토를 통해, 동일한 학습 방식 하에서 최첨단 음성 인식 모델들보다 일관되게 우수한 성능을 보이는 Squeezeformer를 제안한다. 특히 매크로 아키텍처 측면에서, Squeezeformer는 (i) 긴 시퀀스에서 다중 헤드 주의 모듈의 계산 비용을 감소시키는 시간적 U-Net 구조를 도입하고, (ii) Conformer에서 제안된 Macaron 구조 대신 다중 헤드 주의 또는 합성곱 모듈과 피드포워드 모듈을 단순한 블록 구조로 연결한 구조를 채택한다. 또한 마이크로 아키텍처 측면에서, Squeezeformer는 (i) 합성곱 블록 내의 활성화 함수를 단순화하고, (ii) 불필요한 레이어 정규화(Layer Normalization) 연산을 제거하며, (iii) 입력 신호를 효율적으로 하향 샘플링할 수 있는 효율적인 딥웨이즈 다운샘플링 레이어를 포함한다. Squeezeformer는 외부 언어 모델 없이 LibriSpeech test-other 데이터셋에서 각각 7.5%, 6.5%, 6.0%의 단어 오류율(WER)을 달성하여, 동일한 FLOPs 수준에서 Conformer-CTC보다 각각 3.1%, 1.4%, 0.6% 개선된 성능을 보였다. 본 연구의 코드는 오픈소스로 공개되어 온라인에서 접근 가능하다.