HyperAIHyperAI

Command Palette

Search for a command to run...

نحو الترجمة وجهاً لوجه تلقائية

Prajwal K R* Rudrabha Mukhopadhyay* Jerin Philip Abhishek Jha Vinay Namboodiri C. V. Jawahar

الملخص

في ضوء التقدم الأخير في أنظمة الترجمة الآلية، نقترح منهجًا جديدًا نسميه "الترجمة وجهًا لوجه". مع زيادة الاتصال الرقمي البصري اليوم، نعتقد أنه هناك حاجة لأنظمة قادرة على ترجمة فيديو لشخص يتحدث بلغة A إلى لغة الهدف B مع تزامن شفاه واقعي. في هذا العمل، ننشئ خط أنابيب آلي لهذه المشكلة ونبين أثرها على العديد من التطبيقات العملية. أولاً، نبني نظام ترجمة صوتية يعمل بالفعل من خلال دمج عدة وحدات موجودة من الكلام واللغة. ثم ننتقل نحو "الترجمة وجهًا لوجه" بإضافة وحدة بصرية جديدة، LipGAN (LipGAN) لإنشاء وجوه متحركة واقعية من الصوت المترجم. تقييم كمي للـ LipGAN على مجموعة الاختبار القياسية LRW يظهر أنها تتفوق بشكل كبير على النهج الموجودة حاليًا في جميع المؤشرات القياسية. كما خضع أنبوبنا للترجمة وجهًا لوجه لتقييمات بشرية متعددة وأظهر أنه يمكن أن يحسن بشكل كبير تجربة المستخدم الشاملة عند استهلاك وتواصل المحتوى متعدد الوسائط عبر اللغات. تم جعل الكود والنماذج والفيديو التوضيحي متاحين للعامة. الفيديو التوضيحي: https://www.youtube.com/watch?v=aHG6Oei8jF0 الكود والنماذج: https://github.com/Rudrabha/LipGAN


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp