17일 전
사전 훈련 모델과 어댑터를 활용한 엔드투엔드 음성 번역: IWSLT 2021에서의 UPC
Gerard I. Gállego, Ioannis Tsiamas, Carlos Escolano, José A. R. Fonollosa, Marta R. Costa-jussà

초록
이 논문은 UPC 기계번역 그룹이 IWSLT 2021 오프라인 음성 번역 과제에 제출한 시스템에 대해 설명한다. 이 과제는 TED 강연에서 추출한 영어 음성 녹음 파일을 독일어 텍스트로 번역할 수 있는 시스템을 구축하는 것을 목표로 한다. 제출된 시스템은 캐스케이드 방식 또는 엔드투엔드(end-to-end) 방식을 사용할 수 있으며, 사용자 정의(segmentation) 또는 제공된 분할 방식을 선택할 수 있다. 본 연구에서 제출한 시스템은 엔드투엔드 형태의 음성 번역 시스템으로, 사전 학습된 모델(Wav2Vec 2.0 및 mBART)과 인코더 및 디코더 간의 결합 모듈을 결합한 구조를 가지며, 전체 파라미터의 20%만을 미세조정(fine-tuning)하는 효율적인 학습 기법을 사용한다. 실험을 통해 시스템에 어댑터(Adapter)를 추가하고 사전 학습을 수행하는 것이 수렴 속도를 향상시키며 최종 성능을 개선함을 확인하였으며, 이를 통해 MuST-C 테스트 세트에서 BLEU 점수 27.3을 달성하였다. 최종 모델은 앙상블(ensemble) 구조로 구성되어 동일한 테스트 세트에서 28.22의 BLEU 점수를 기록하였다. 또한 본 제출 시스템은 사전 학습된 Wav2Vec 2.0을 활용하여 번역이 불가능한 텍스트 구간을 탐지하는 사용자 정의 분할 알고리즘을 도입하였으며, 제공된 분할 방식과 비교하여 IWSLT 2019 테스트 세트에서 BLEU 점수를 2.5~3 포인트 향상시킬 수 있었다.