18일 전
음성-텍스트 작업을 위한 태스크 인지 다중 작업 학습
{Inchul Hwang, Chanwoo Kim, Sangha Kim, Seokchan Ahn, Hyojung Han, Beomseok Lee, Nikhil Kumar Lakumarapu, Mohd Abbas Zaidi, Sathish Indurthi}
초록
일반적으로 직접 음성-텍스트 번역(Speech-to-text translation, ST)은 음성 인식(Automatic Speech Recognition, ASR)과 기계 번역(Machine Translation, MT) 작업과 함께 공동 학습된다. 그러나 현재의 공동 학습 전략에는 이러한 작업 간 지식 전이를 저해하는 문제가 존재한다. 본 연구에서는 모델이 동시에 작업별 특징과 공유 특징을 학습할 수 있도록 해주는 작업 조절 네트워크(Task modulation network)를 제안한다. 이 제안된 접근 방식은 별도의 미세조정(finetuning) 단계가 필요 없도록 하여, 모든 작업을 수행할 수 있는 단일 모델을 구현한다. 이 단일 모델은 ST MuST-C 영어-독일어 데이터셋에서 28.64의 BLEU 점수, ASR TEDLium v3에서 11.61%의 WER, MT WMT’15 영어-독일어 작업에서 23.35의 BLEU 점수를 달성한다. 이는 ST 작업에서 새로운 최고 성능(State-of-the-art, SOTA)을 기록하며, 기존의 엔드투엔드 ASR 시스템보다도 우수한 성능을 보였다.