Command Palette
Search for a command to run...
الترجمة الآلية متعددة الوسائط من خلال الصور والصوت
الترجمة الآلية متعددة الوسائط من خلال الصور والصوت
Umut Sulubacak Ozan Caglayan Stig-Arne Grönroos Aku Rouhe Desmond Elliott Lucia Specia Jörg Tiedemann
الملخص
يتعلق الترجمة الآلية متعددة الوسائط بجمع المعلومات من أكثر من وسيلة واحدة، استنادًا إلى الافتراض بأن الوسائط الإضافية ستحتوي على وجهات نظر بديلة مفيدة للبيانات المدخلة. وتشمل المهام البارزة في هذا المجال الترجمة الصوتية للغة، والترجمة المدعومة بالصورة، والترجمة المدعومة بالفيديو، التي تستغل بالترتيب الوسائط الصوتية والبصرية. وتميّز هذه المهام عن نظيراتها الأحادية اللغة في التعرف على الكلام، وكتابة العناوين التوضيحية للصور، وكتابة العناوين التوضيحية للفيديوهات، من خلال متطلبات نماذج التوليد من إنتاج مخرجات بلغة مختلفة. ويستعرض هذا الاستعراض الموارد البيانات الرئيسية لهذه المهام، والحملات التقييمية المركزة حولها، والمستوى المتقدم في النهج النهائية (end-to-end) والنهج المتسلسلة (pipeline)، فضلًا عن التحديات المتعلقة بتقييم الأداء. ويختم البحث بمناقشة الاتجاهات المستقبلية في هذه المجالات: الحاجة إلى مجموعات بيانات أوسع وأكثر تحديًا، وتقييمات موجهة لأداء النماذج، ووجود متعدد الوسائط في كل من فضاء المدخلات والمخرجات.