17일 전

효율적인 음성 인식을 위한 선형적으로 확장 가능한 어텐션을 갖춘 빠른 컨포머

Dima Rekesh, Nithin Rao Koluguri, Samuel Kriman, Somshubra Majumdar, Vahid Noroozi, He Huang, Oleksii Hrinchuk, Krishna Puvvada, Ankur Kumar, Jagadeesh Balam, Boris Ginsburg
효율적인 음성 인식을 위한 선형적으로 확장 가능한 어텐션을 갖춘 빠른 컨포머
초록

컨포머 기반 모델은 음성 처리 작업에서 주도적인 엔드투엔드 아키텍처로 부상하였다. 효율적인 학습 및 추론을 위해 컨포머 아키텍처를 개선하고자, 우리는 새로운 다운샘플링 스키마를 활용해 컨포머를 철저히 재설계하였다. 제안하는 모델인 '패스트 컨포머(Fast Conformer, FC)'는 원본 컨포머 대비 2.8배 빠르며, 핵심 아키텍처에 어떠한 변경 없이 수십억 파라미터 규모까지 확장 가능하고, 자동 음성 인식(ASR) 벤치마크에서 최신 기준 성능을 달성한다. 11시간에 이르는 긴 형식의 음성 번역을 가능하게 하기 위해, 사후 훈련 단계에서 전역 주목력(global attention)을 제한된 컨텍스트 주목력(limited context attention)으로 대체하였으며, 전역 토큰(global token)을 추가하여 미세조정을 통해 정확도를 더욱 향상시켰다. 패스트 컨포머는 트랜스포머 디코더와 결합할 경우, 음성 번역 및 구어 언어 이해(task)에서 원본 컨포머보다 정확도와 속도 면에서 모두 우수한 성능을 발휘한다.

효율적인 음성 인식을 위한 선형적으로 확장 가능한 어텐션을 갖춘 빠른 컨포머 | 최신 연구 논문 | HyperAI초신경