HyperAIHyperAI
منذ 11 أيام

شبكة كابسول ديناميكية تُوجَّه بالسياق للترجمة الآلية متعددة الوسائط

Huan Lin, Fandong Meng, Jinsong Su, Yongjing Yin, Zhengyuan Yang, Yubin Ge, Jie Zhou, Jiebo Luo
شبكة كابسول ديناميكية تُوجَّه بالسياق للترجمة الآلية متعددة الوسائط
الملخص

الترجمة متعددة الوسائط (MMT)، التي تركز بشكل رئيسي على تحسين الترجمة النصية فقط من خلال استخدام السمات البصرية، لاقت اهتمامًا كبيرًا من مجتمعات الرؤية الحاسوبية ومعالجة اللغة الطبيعية. تعتمد معظم نماذج MMT الحالية على آلية الانتباه، أو نمذجة السياق الشامل، أو التعلم المشترك للتمثيل متعدد الوسائط لاستغلال السمات البصرية. ومع ذلك، فإن آلية الانتباه تفتقر إلى تفاعلات معنوية كافية بين الوسائط، بينما تقدم النهجان الآخرايان سياقًا بصريًا ثابتًا، وهو ما لا يناسب نمذجة التباين الملاحظ أثناء عملية إنتاج الترجمة. لمعالجة هذه المشكلات، نقترح في هذه الورقة شبكة كابسول ديناميكية موجهة بالسياق (DCCN) جديدة للترجمة متعددة الوسائط. بشكل محدد، في كل خطوة زمنية أثناء عملية التفكيك، نستخدم أولاً آلية الانتباه التقليدية بين المصدر والهدف لإنتاج متجه سياقي مخصص للخطوة الزمنية. ثم تأخذ DCCN هذا المتجه كمدخل وتستخدمه لتوجيه استخلاص تكراري للسمات البصرية ذات الصلة من خلال آلية توجيه ديناميكية موجهة بالسياق. وبشكل خاص، نمثل الصورة المدخلة باستخدام سمات بصرية عامة وإقليمية، ونُدخل دالتين متوازيتين من DCCNs لتمثيل متجهات السياق متعددة الوسائط باستخدام السمات البصرية بدرجات تفصيل مختلفة. وأخيرًا، نحصل على متجهين متعددي الوسائط، يتم دمجهما ودمجهما في المُفكك (decoder) لتنبؤ الكلمة الهدف. أظهرت النتائج التجريبية على مجموعة بيانات Multi30K للترجمة من الإنجليزية إلى الألمانية والفرنسية تفوق DCCN. يمكن الوصول إلى كودنا عبر الرابط: https://github.com/DeepLearnXMU/MM-DCCN.

شبكة كابسول ديناميكية تُوجَّه بالسياق للترجمة الآلية متعددة الوسائط | أحدث الأوراق البحثية | HyperAI