2달 전

자동화된 대면 번역을 향하여

R, Prajwal K ; Mukhopadhyay, Rudrabha ; Philip, Jerin ; Jha, Abhishek ; Namboodiri, Vinay ; Jawahar, C. V.

초록

최근 자동 기계 번역 시스템에서의 획기적인 발전을 바탕으로, 우리는 "대면 번역(Face-to-Face Translation)"이라는 새로운 접근 방안을 제안합니다. 오늘날 디지털 통신이 점점 더 시각화됨에 따라, 언어 A로 말하는 사람의 동영상을 실제 입술 동기화를 통해 목표 언어 B로 자동으로 번역할 수 있는 시스템의 필요성을 주장합니다. 이 연구에서는 이러한 문제를 위한 자동 파이프라인을 구축하고, 여러 실제 응용 분야에서의 영향력을 입증합니다.우선, 기존의 음성 및 언어 모듈들을 결합하여 작동 가능한 음성-음성 번역 시스템을 구축하였습니다. 그 다음으로, "대면 번역"을 위해 새로운 시각 모듈인 LipGAN을 도입하여 번역된 오디오로부터 실제적인 대화 얼굴을 생성하였습니다. LipGAN은 표준 LRW 테스트 세트에서 정량적으로 평가되었으며, 모든 표준 지표에서 기존 접근 방식보다 크게 우수한 성능을 보였습니다. 또한, 우리의 대면 번역 파이프라인은 다중 인적 평가를 거쳤으며, 다양한 언어 간 멀티모달 콘텐츠를 소비하고 상호작용하는 데 있어 전체 사용자 경험을 크게 개선할 수 있음을 보여주었습니다.코드, 모델 및 데모 비디오는 공개적으로 제공됩니다. 데모 비디오: https://www.youtube.com/watch?v=aHG6Oei8jF0 코드 및 모델: https://github.com/Rudrabha/LipGAN