17일 전

BAT: 메모리 효율적이고 저지연성 ASR를 위한 경계 인지 전이기

Keyu An, Xian Shi, Shiliang Zhang
BAT: 메모리 효율적이고 저지연성 ASR를 위한 경계 인지 전이기
초록

최근에 반복 신경망 트랜스듀서(RNN-T)는 자연스러운 스트리밍 능력과 뛰어난 성능으로 인해 점점 더 많은 관심을 받고 있다. 그러나 RNN-T 학습은 손실 함수 계산이 느리고 메모리 사용량이 많아 대규모 시간과 계산 자원이 필요하다는 문제가 있다. 또한 RNN-T의 또 다른 한계는 성능 향상을 위해 더 많은 문맥을 접근하게 되어 스트리밍 음성 인식(ASR)에서 발현 지연(latency)이 증가한다는 점이다. 본 논문에서는 메모리 효율적이고 저지연을 실현하는 경계 인지형 트랜스듀서(Boundary-aware Transducer, BAT)를 제안한다. BAT에서는 RNN-T 손실 계산을 위한 레이티스(lattice)를 연속적 적분-화재(CIF, continuous integrate-and-fire) 모델로부터 도출된 어라이어먼트(alignment)에 의해 선택된 제한된 영역으로 축소한다. 이 CIF 모델은 RNN-T 모델과 함께 공동 최적화된다. 광범위한 실험을 통해 RNN-T에 비해 BAT가 학습 시 시간 및 메모리 소비를 크게 줄이며, 스트리밍 ASR의 추론 과정에서 우수한 CER(latency) 트레이드오프를 달성함을 입증하였다.