HyperAIHyperAI

Command Palette

Search for a command to run...

الترجمة الآلية متعددة الوسائط من خلال الصور والصوت

Umut Sulubacak Ozan Caglayan Stig-Arne Grönroos Aku Rouhe Desmond Elliott Lucia Specia Jörg Tiedemann

الملخص

يتعلق الترجمة الآلية متعددة الوسائط بجمع المعلومات من أكثر من وسيلة واحدة، استنادًا إلى الافتراض بأن الوسائط الإضافية ستحتوي على وجهات نظر بديلة مفيدة للبيانات المدخلة. وتشمل المهام البارزة في هذا المجال الترجمة الصوتية للغة، والترجمة المدعومة بالصورة، والترجمة المدعومة بالفيديو، التي تستغل بالترتيب الوسائط الصوتية والبصرية. وتميّز هذه المهام عن نظيراتها الأحادية اللغة في التعرف على الكلام، وكتابة العناوين التوضيحية للصور، وكتابة العناوين التوضيحية للفيديوهات، من خلال متطلبات نماذج التوليد من إنتاج مخرجات بلغة مختلفة. ويستعرض هذا الاستعراض الموارد البيانات الرئيسية لهذه المهام، والحملات التقييمية المركزة حولها، والمستوى المتقدم في النهج النهائية (end-to-end) والنهج المتسلسلة (pipeline)، فضلًا عن التحديات المتعلقة بتقييم الأداء. ويختم البحث بمناقشة الاتجاهات المستقبلية في هذه المجالات: الحاجة إلى مجموعات بيانات أوسع وأكثر تحديًا، وتقييمات موجهة لأداء النماذج، ووجود متعدد الوسائط في كل من فضاء المدخلات والمخرجات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp