HyperAIHyperAI

Command Palette

Search for a command to run...

استخلاص الصورة إلى nowhere: تعلم التجميع المعرفي للتحويل متعدد الوسائط

Ru Peng Yawen Zeng Junbo Zhao

الملخص

تُعزز الدراسات السابقة في الترجمة الآلية متعددة الوسائط (MMT) النموذج الثنائي اللغة من خلال دمج معلومات بصرية مُنسَّقة إضافية. ومع ذلك، فإن متطلبات وجود صورة في مجموعة البيانات متعددة الوسائط تُعدّ عقبة كبيرة أمام تطوير MMT، حيث تتطلب شكلًا مُنسَّقًا من [صورة، نص مصدر، نص هدف]. ويُعدّ هذا التقييد مشكلة خاصة أثناء مرحلة الاستدلال، خصوصًا عندما لا تُقدَّم الصورة المُنسَّقة، كما هو الحال في النموذج العادي للترجمة الآلية الثنائية اللغة. لذلك، في هذا العمل، نقدّم إطار عمل MMT جديد يُسمّى IKD-MMT، يُمكّن من مرحلة استدلال خالية من الصور من خلال خوارزمية استخلاص المعرفة بالاسترجاع. وبشكل خاص، يتم تشغيل مُولِّد الميزات متعددة الوسائط مع وحدة استخلاص المعرفة، والتي تُولّد مباشرة ميزات متعددة الوسائط من النص المصدر فقط كمدخل. وعلى الرغم من وجود بعض الدراسات السابقة التي تناولت إمكانية دعم الاستدلال دون صور في الترجمة الآلية، إلا أن أداؤها لم يُحقق بعد مستوى الترجمة التي تتطلب صورة. في تجاربنا، نُظهر أن منهجنا هو أول نهج خالٍ من الصور يُنافس بشكل شمولي أو حتى يتفوق (تقريبًا) على جميع النماذج التي تتطلب صورة، ويحقق أداءً مُتقدمًا (state-of-the-art) على معيار Multi30k الشهير. يمكن الوصول إلى الكود والبيانات المستخدمة في هذا العمل عبر الرابط التالي: https://github.com/pengr/IKD-mmt/tree/master.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp