استخلاص الصورة إلى nowhere: تعلم التجميع المعرفي للتحويل متعدد الوسائط

تُعزز الدراسات السابقة في الترجمة الآلية متعددة الوسائط (MMT) النموذج الثنائي اللغة من خلال دمج معلومات بصرية مُنسَّقة إضافية. ومع ذلك، فإن متطلبات وجود صورة في مجموعة البيانات متعددة الوسائط تُعدّ عقبة كبيرة أمام تطوير MMT، حيث تتطلب شكلًا مُنسَّقًا من [صورة، نص مصدر، نص هدف]. ويُعدّ هذا التقييد مشكلة خاصة أثناء مرحلة الاستدلال، خصوصًا عندما لا تُقدَّم الصورة المُنسَّقة، كما هو الحال في النموذج العادي للترجمة الآلية الثنائية اللغة. لذلك، في هذا العمل، نقدّم إطار عمل MMT جديد يُسمّى IKD-MMT، يُمكّن من مرحلة استدلال خالية من الصور من خلال خوارزمية استخلاص المعرفة بالاسترجاع. وبشكل خاص، يتم تشغيل مُولِّد الميزات متعددة الوسائط مع وحدة استخلاص المعرفة، والتي تُولّد مباشرة ميزات متعددة الوسائط من النص المصدر فقط كمدخل. وعلى الرغم من وجود بعض الدراسات السابقة التي تناولت إمكانية دعم الاستدلال دون صور في الترجمة الآلية، إلا أن أداؤها لم يُحقق بعد مستوى الترجمة التي تتطلب صورة. في تجاربنا، نُظهر أن منهجنا هو أول نهج خالٍ من الصور يُنافس بشكل شمولي أو حتى يتفوق (تقريبًا) على جميع النماذج التي تتطلب صورة، ويحقق أداءً مُتقدمًا (state-of-the-art) على معيار Multi30k الشهير. يمكن الوصول إلى الكود والبيانات المستخدمة في هذا العمل عبر الرابط التالي: https://github.com/pengr/IKD-mmt/tree/master.