نحو الترجمة وجهاً لوجه تلقائية

في ضوء التقدم الأخير في أنظمة الترجمة الآلية، نقترح منهجًا جديدًا نسميه "الترجمة وجهًا لوجه". مع زيادة الاتصال الرقمي البصري اليوم، نعتقد أنه هناك حاجة لأنظمة قادرة على ترجمة فيديو لشخص يتحدث بلغة A إلى لغة الهدف B مع تزامن شفاه واقعي. في هذا العمل، ننشئ خط أنابيب آلي لهذه المشكلة ونبين أثرها على العديد من التطبيقات العملية. أولاً، نبني نظام ترجمة صوتية يعمل بالفعل من خلال دمج عدة وحدات موجودة من الكلام واللغة. ثم ننتقل نحو "الترجمة وجهًا لوجه" بإضافة وحدة بصرية جديدة، LipGAN (LipGAN) لإنشاء وجوه متحركة واقعية من الصوت المترجم. تقييم كمي للـ LipGAN على مجموعة الاختبار القياسية LRW يظهر أنها تتفوق بشكل كبير على النهج الموجودة حاليًا في جميع المؤشرات القياسية. كما خضع أنبوبنا للترجمة وجهًا لوجه لتقييمات بشرية متعددة وأظهر أنه يمكن أن يحسن بشكل كبير تجربة المستخدم الشاملة عند استهلاك وتواصل المحتوى متعدد الوسائط عبر اللغات. تم جعل الكود والنماذج والفيديو التوضيحي متاحين للعامة. الفيديو التوضيحي: https://www.youtube.com/watch?v=aHG6Oei8jF0 الكود والنماذج: https://github.com/Rudrabha/LipGAN