17일 전
블록 증강 트랜스포머를 활용한 중국어 음성 인식 향상
Xiaoming Ren, Huifeng Zhu, Liuwei Wei, Minghui Wu, Jie Hao

초록
최근 컨볼루션 증강 트랜스포머(Conformer)는 자동 음성 인식(Automatic Speech Recognition, ASR) 분야에서 기존에 발표된 최고 성능을 기록한 트랜스포머 트랜스듀서(Transformer Transducer)를 넘어서는 훌륭한 성과를 보여주고 있다. 본 연구에서는 인코더 및 디코더의 각 블록에서 출력되는 정보가 완전히 포괄적이지 않으며, 서로 보완적인 관계일 수 있다고 보고 있다. 우리는 이러한 블록 간의 보완적 정보를 파라미터 효율적인 방식으로 활용할 수 있는 방법을 탐구하며, 이는 더 견고한 성능 향상으로 이어질 것으로 기대된다. 따라서 이를 바탕으로 음성 인식을 위한 블록 증강 트랜스포머(Block-augmented Transformer), 즉 Blockformer를 제안한다. 우리는 두 가지 블록 앙상블 방식을 구현하였다: 기반 가중합(Block Output의 기반 가중합, Base-WSBO)과 압축-흥분 모듈을 활용한 가중합(Sequeeze-and-Excitation 모듈을 적용한 Block Output 가중합, SE-WSBO). 실험 결과, Blockformer는 AISHELL-1 데이터셋에서 기존 최고 성능을 기록한 Conformer 기반 모델들을 크게 능가하며, 언어 모델을 사용하지 않은 경우 테스트셋에서 CER(문자 오류율)가 4.29%로 나타났고, 외부 언어 모델을 사용한 경우 4.05%까지 개선되는 결과를 보였다.