17일 전
유니버설 트랜스포머를 넘어서: 자동 음성 인식을 위한 트랜스포머에서 어댑터를 활용한 �ブロック 재사용
Haoyu Tang, Zhaoyi Liu, Chang Zeng, Xinfeng Li

초록
최근 Transformer 기반 모델은 엔드투엔드(End-to-End, E2E) 음성 인식(ASR) 분야에서 중요한 성과를 거두었다. Transformer 기반 모델의 도움을 받아 E2E ASR 시스템을 스마트 장치에 배포하는 것이 가능해졌다. 그러나 이러한 모델은 여전히 대량의 모델 파라미터를 필요로 하는 단점이 있다. 엣지 장치에서 ASR 적용을 위한 일반적인 Transformer 모델의 한계를 극복하기 위해, 본 연구에서는 소형 ASR 시스템 환경에서 Transformer 모델의 블록을 재사용할 수 있는 솔루션을 제안한다. 이 방법은 계산 자원 제약 조건을 충족하면서도 인식 정확도를 저하시키지 않도록 설계되었다. 구체적으로, 파라미터 활용 효율을 높이기 위해 음성 Transformer용 새로운 블록 재사용 전략(BRST: Block-Reusing Strategy for Speech Transformer)을 설계하였으며, 각 재사용 블록과 함께 소수의 추가 학습 가능한 파라미터만을 갖는 적응형 모듈(ADM: Adapter Module)을 제안하였다. 제안된 방법을 공개된 AISHELL-1 코퍼스를 대상으로 실험한 결과, ADM 없이 7.6M 파라미터로 9.3%의 문자 오류율(CER), ADM를 포함한 경우 8.3M 파라미터로 6.63%의 CER을 달성하였다. 또한, ADM이 일반적인 블록 재사용 방식에서 어떤 영향을 미치는지에 대해 심층적인 분석을 수행하여 그 효과를 입증하였다.