منذ 8 أشهر

الملخص

في ضوء التقدم الأخير في أنظمة الترجمة الآلية، نقترح منهجًا جديدًا نسميه "الترجمة وجهًا لوجه". مع زيادة الاتصال الرقمي البصري اليوم، نعتقد أنه هناك حاجة لأنظمة قادرة على ترجمة فيديو لشخص يتحدث بلغة A إلى لغة الهدف B مع تزامن شفاه واقعي. في هذا العمل، ننشئ خط أنابيب آلي لهذه المشكلة ونبين أثرها على العديد من التطبيقات العملية. أولاً، نبني نظام ترجمة صوتية يعمل بالفعل من خلال دمج عدة وحدات موجودة من الكلام واللغة. ثم ننتقل نحو "الترجمة وجهًا لوجه" بإضافة وحدة بصرية جديدة، LipGAN (LipGAN) لإنشاء وجوه متحركة واقعية من الصوت المترجم. تقييم كمي للـ LipGAN على مجموعة الاختبار القياسية LRW يظهر أنها تتفوق بشكل كبير على النهج الموجودة حاليًا في جميع المؤشرات القياسية. كما خضع أنبوبنا للترجمة وجهًا لوجه لتقييمات بشرية متعددة وأظهر أنه يمكن أن يحسن بشكل كبير تجربة المستخدم الشاملة عند استهلاك وتواصل المحتوى متعدد الوسائط عبر اللغات. تم جعل الكود والنماذج والفيديو التوضيحي متاحين للعامة. الفيديو التوضيحي: https://www.youtube.com/watch?v=aHG6Oei8jF0 الكود والنماذج: https://github.com/Rudrabha/LipGAN

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار