17일 전
이중 디코더 트랜스포머를 이용한 병렬 자동 음성 인식 및 다국어 음성 번역
Hang Le, Juan Pino, Changhan Wang, Jiatao Gu, Didier Schwab, Laurent Besacier

초록
우리는 자동 음성 인식(ASR)과 다국어 음성 번역(ST)을 공동으로 수행할 수 있는 새로운 모델 아키텍처인 이중 디코더 트랜스포머(dual-decoder Transformer)를 소개한다. 본 모델은 Vaswani 등(2017)이 제안한 원래의 트랜스포머 아키텍처를 기반으로 하되, 각각 하나의 작업(ASR 또는 ST)을 담당하는 두 개의 디코더로 구성된다. 본 연구의 주요 기여는 이러한 두 디코더 간의 상호작용 방식에 있다: 하나의 디코더가 이중 주의 메커니즘(dual-attention mechanism)을 통해 다른 디코더로부터 다양한 정보 소스에 주의를 기울일 수 있도록 설계되었다. 이러한 아키텍처에 대해 두 가지 변형을 제안하였으며, 디코더 간의 의존성 수준에 따라 각각 병렬(parallel)과 교차(cross) 이중 디코더 트랜스포머라고 명명하였다. MuST-C 데이터셋을 대상으로 수행한 광범위한 실험 결과, 본 모델은 다국어 환경에서 이전에 보고된 최고의 번역 성능을 초과하였으며, 이중 언어(one-to-one) 번역 성능 역시 뛰어넘었다. 더불어, 기존의 단순 다중 작업(multi-task) 아키텍처와 비교했을 때, 본 연구의 병렬 모델은 ASR과 ST 간의 성능 간 균형 손실(trade-off)이 없음을 입증하였다. 본 연구의 코드와 사전 훈련된 모델은 https://github.com/formiel/speech-translation에서 제공된다.