HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة كابسول ديناميكية تُوجَّه بالسياق للترجمة الآلية متعددة الوسائط

Huan Lin Fandong Meng Jinsong Su Yongjing Yin Zhengyuan Yang Yubin Ge Jie Zhou Jiebo Luo

الملخص

الترجمة متعددة الوسائط (MMT)، التي تركز بشكل رئيسي على تحسين الترجمة النصية فقط من خلال استخدام السمات البصرية، لاقت اهتمامًا كبيرًا من مجتمعات الرؤية الحاسوبية ومعالجة اللغة الطبيعية. تعتمد معظم نماذج MMT الحالية على آلية الانتباه، أو نمذجة السياق الشامل، أو التعلم المشترك للتمثيل متعدد الوسائط لاستغلال السمات البصرية. ومع ذلك، فإن آلية الانتباه تفتقر إلى تفاعلات معنوية كافية بين الوسائط، بينما تقدم النهجان الآخرايان سياقًا بصريًا ثابتًا، وهو ما لا يناسب نمذجة التباين الملاحظ أثناء عملية إنتاج الترجمة. لمعالجة هذه المشكلات، نقترح في هذه الورقة شبكة كابسول ديناميكية موجهة بالسياق (DCCN) جديدة للترجمة متعددة الوسائط. بشكل محدد، في كل خطوة زمنية أثناء عملية التفكيك، نستخدم أولاً آلية الانتباه التقليدية بين المصدر والهدف لإنتاج متجه سياقي مخصص للخطوة الزمنية. ثم تأخذ DCCN هذا المتجه كمدخل وتستخدمه لتوجيه استخلاص تكراري للسمات البصرية ذات الصلة من خلال آلية توجيه ديناميكية موجهة بالسياق. وبشكل خاص، نمثل الصورة المدخلة باستخدام سمات بصرية عامة وإقليمية، ونُدخل دالتين متوازيتين من DCCNs لتمثيل متجهات السياق متعددة الوسائط باستخدام السمات البصرية بدرجات تفصيل مختلفة. وأخيرًا، نحصل على متجهين متعددي الوسائط، يتم دمجهما ودمجهما في المُفكك (decoder) لتنبؤ الكلمة الهدف. أظهرت النتائج التجريبية على مجموعة بيانات Multi30K للترجمة من الإنجليزية إلى الألمانية والفرنسية تفوق DCCN. يمكن الوصول إلى كودنا عبر الرابط: https://github.com/DeepLearnXMU/MM-DCCN.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp