منذ 16 أيام
الانتباه غومبيل للترجمة الآلية متعددة الوسائط
Pengbo Liu, Hailong Cao, Tiejun Zhao

الملخص
يُحسّن الترجمة الآلية متعددة الوسائط (MMT) جودة الترجمة من خلال إدخال معلومات بصرية. ومع ذلك، تتجاهل النماذج الحالية لـ MMT مشكلة أن الصورة قد تُدخل معلومات غير ذات صلة بالنص، مما يُسبب ضجيجًا كبيرًا للنموذج ويؤثر سلبًا على جودة الترجمة. تُقدّم هذه الورقة منهجية جديدة تُسمّى "Gumbel-Attention" للترجمة الآلية متعددة الوسائط، والتي تُركّز على اختيار الأجزاء المرتبطة بالنص من ميزات الصورة. وبشكل خاص، تختلف هذه المنهجية عن الأساليب السابقة القائمة على الانتباه من حيث أننا نستخدم في البداية طريقة قابلة للتمييز لاختيار معلومات الصورة، ونُزيل تلقائيًا الأجزاء غير الضرورية من ميزات الصورة. وأثبتت التجارب أن منهجيتنا تحافظ على ميزات الصورة المرتبطة بالنص، وأن الأجزاء المتبقية تساعد نموذج MMT على إنتاج ترجمات أفضل.