HyperAIHyperAI
منذ 11 أيام

الترجمة الآلية متعددة الوسائط من خلال الصور والصوت

Umut Sulubacak, Ozan Caglayan, Stig-Arne Grönroos, Aku Rouhe, Desmond Elliott, Lucia Specia, Jörg Tiedemann
الترجمة الآلية متعددة الوسائط من خلال الصور والصوت
الملخص

يتعلق الترجمة الآلية متعددة الوسائط بجمع المعلومات من أكثر من وسيلة واحدة، استنادًا إلى الافتراض بأن الوسائط الإضافية ستحتوي على وجهات نظر بديلة مفيدة للبيانات المدخلة. وتشمل المهام البارزة في هذا المجال الترجمة الصوتية للغة، والترجمة المدعومة بالصورة، والترجمة المدعومة بالفيديو، التي تستغل بالترتيب الوسائط الصوتية والبصرية. وتميّز هذه المهام عن نظيراتها الأحادية اللغة في التعرف على الكلام، وكتابة العناوين التوضيحية للصور، وكتابة العناوين التوضيحية للفيديوهات، من خلال متطلبات نماذج التوليد من إنتاج مخرجات بلغة مختلفة. ويستعرض هذا الاستعراض الموارد البيانات الرئيسية لهذه المهام، والحملات التقييمية المركزة حولها، والمستوى المتقدم في النهج النهائية (end-to-end) والنهج المتسلسلة (pipeline)، فضلًا عن التحديات المتعلقة بتقييم الأداء. ويختم البحث بمناقشة الاتجاهات المستقبلية في هذه المجالات: الحاجة إلى مجموعات بيانات أوسع وأكثر تحديًا، وتقييمات موجهة لأداء النماذج، ووجود متعدد الوسائط في كل من فضاء المدخلات والمخرجات.

الترجمة الآلية متعددة الوسائط من خلال الصور والصوت | أحدث الأوراق البحثية | HyperAI