Zu automatisierter Face-to-Face-Übersetzung

Im Licht der jüngsten Durchbrüche im Bereich der automatischen Maschinentranslationssysteme schlagen wir einen neuen Ansatz vor, den wir als „Face-to-Face-Übersetzung“ bezeichnen. Da die digitale Kommunikation zunehmend visuell wird, argumentieren wir, dass es ein Bedarf an Systemen gibt, die ein Video einer Person, die in Sprache A spricht, automatisch in eine Zielsprache B übersetzen können, wobei eine realistische Lippenbewegungssynchronisation gewährleistet ist. In dieser Arbeit entwickeln wir einen automatischen Workflow für dieses Problem und demonstrieren dessen Auswirkungen auf verschiedene Anwendungen in der Praxis. Zunächst bauen wir ein funktionierendes Sprach-sprach-Übersetzungssystem durch die Kombination mehrerer bestehender Module aus den Bereichen Sprache und Sprachverarbeitung. Anschließend nähern wir uns der „Face-to-Face-Übersetzung“ durch die Einbeziehung eines neuartigen visuellen Moduls, LipGAN, das realistische sprechende Gesichter aus dem übersetzten Audio generiert. Eine quantitative Bewertung von LipGAN am Standard-LRW-Testset zeigt, dass es bei allen Standardmetriken erheblich bessere Ergebnisse als existierende Ansätze erzielt. Wir unterziehen unseren Face-to-Face-Übersetzungswerkflow auch mehreren menschlichen Evaluierungen und zeigen, dass er den Gesamtbenutzererlebnis bei der Verarbeitung und Interaktion mit multimodalem Inhalt über verschiedene Sprachen hinweg erheblich verbessern kann. Der Quellcode, die Modelle und ein Demonstrationsvideo sind öffentlich zugänglich gemacht worden.Demonstrationsvideo: https://www.youtube.com/watch?v=aHG6Oei8jF0Quellcode und Modelle: https://github.com/Rudrabha/LipGAN