토큰과 지속시간을 동시에 예측함으로써 효율적인 시퀀스 변환

이 논문은 시퀀스-투-시퀀스 작업을 위한 새로운 토큰-및-지속시간 트랜스듀서(Token-and-Duration Transducer, TDT) 아키텍처를 제안한다. TDT는 전통적인 RNN-Transducer 아키텍처를 확장하여, 출력된 토큰과 그 토큰이 차지하는 지속시간(즉, 해당 토큰이 커버하는 입력 프레임 수)을 동시에 예측한다. 이는 두 개의 출력을 갖는 공동 네트워크(joint network)를 사용하여 달성되며, 각 출력은 독립적으로 정규화되어 토큰과 지속시간에 대한 확률 분포를 생성한다. 추론 과정에서는 TDT 모델이 예측된 지속시간 출력을 기반으로 입력 프레임을 건너뛸 수 있어, 기존의 Transducer가 인코더 출력을 프레임 단위로 차례로 처리하는 것과 비교해 훨씬 빠른 속도를 보인다. 다양한 시퀀스 변환 작업에서 TDT 모델은 전통적인 Transducer보다 더 높은 정확도와 동시에 현저히 빠른 추론 속도를 달성한다. 음성 인식(task)에서는 TDT 모델이 전통적인 Transducer보다 더 높은 정확도를 기록하며, 추론 속도가 최대 2.82배 빠르다. 음성 번역(task)에서는 MUST-C 테스트에서 전통적인 Transducer 대비 절대적으로 1 이상의 BLEU 점수 향상을 달성했으며, 추론 속도는 2.27배 빠르다. 음성 의도 분류 및 슬롯 채우기(task)에서는 전통적인 Transducer 대비 의도 정확도를 최대 1% 이상(절대값 기준) 향상시키면서, 최대 1.28배 빠른 속도로 작동한다. 본 연구에서 개발한 TDT 모델의 구현체는 NVIDIA의 NeMo 툴킷(https://github.com/NVIDIA/NeMo)을 통해 오픈소스로 공개될 예정이다.