17일 전
ChunkFormer: 장형 음성 번역을 위한 마스킹 청크링 컨포머
Khanh Le, Tuan Vu Ho, Dung Tran, Duc Thanh Chau

초록
산업 규모에서 음성 인식(ASR) 모델을 배포하는 것은 특히 수시간에 이르는 긴 형식의 오디오 전사 작업에서 하드웨어 자원 관리 측면에서 큰 도전 과제를 안고 있다. 대규모 Conformer 모델은 성능 면에서 뛰어나지만, 80GB GPU에서 최대 15분 분량의 오디오만 처리할 수 있으며, 입력 길이가 다양할 경우 기존 배치 처리 방식은 과도한 패딩을 초래하여 자원 소비와 실행 시간을 증가시켜 효율성을 더욱 악화시킨다. 이를 해결하기 위해 우리는 ChunkFormer을 제안한다. 이 모델은 상대적 우측 컨텍스트를 활용한 청크 기반 처리 방식을 도입하여 저메모리 GPU에서도 긴 오디오 전사를 가능하게 한다. ChunkFormer은 80GB GPU에서 최대 16시간 분량의 오디오를 처리할 수 있으며, 현재 최고 성능을 자랑하는 FastConformer보다 약 1.5배 더 긴 오디오를 처리할 수 있다. 또한 Conformer 대비 긴 형식 전사 성능을 7.7%의 절대적 단어 오류율 감소로 향상시켰으며, 짧은 작업에 대해서도 정확도를 유지한다. 기존 배치 처리에서 패딩이 필요 없도록 하는 마스킹 배치(masked batching) 기법을 도입함으로써, 배치 처리 시 실행 시간과 메모리 사용량을 3배 이상 감소시켜 다양한 ASR 시스템의 운영 비용을 크게 절감할 수 있으며, 특히 실제 서비스 환경에서 모델을 실행하는 데 필요한 GPU 자원 측면에서 큰 효율성 향상을 제공한다.