HyperAIHyperAI

Command Palette

Search for a command to run...

فيتا: الترجمة البصرية-اللغوية من خلال محاذاة تسميات الكائنات

Kshitij Gupta Devansh Gautam Radhika Mamidi

الملخص

يُعد الترجمة الآلية متعددة الوسائط (MMT) وسيلة لتعزيز النص المُصدر بمعلومات بصرية لتحسين عملية الترجمة. وقد اكتسبت هذه المهمة شعبية في السنوات الأخيرة، وتم اقتراح العديد من العمليات (Pipelines) في هذا الاتجاه. ومع ذلك، ما زال يُعاني هذا المجال من نقص في مجموعات البيانات عالية الجودة التي تُظهر مساهمة الوسيط البصري في أنظمة الترجمة. في هذه الورقة، نُقدّم نظامنا تحت اسم الفريق "فولتا" للمهمة متعددة الوسائط في مسابقة WAT 2021، وذلك لترجمة النص الإنجليزي إلى الهندي. كما نشارك في المهمة الفرعية النصية فقط لنفس زوج اللغة، حيث نستخدم نموذج mBART، وهو نموذج متعدد اللغات مُدرّب مسبقًا على التسلسل من التسلسل. أما في حالة الترجمة متعددة الوسائط، فإننا نقترح تعزيز المدخل النصي من خلال تحويل المعلومات البصرية إلى المجال النصي، وذلك عبر استخراج علامات الكائنات من الصورة. كما نستكشف أيضًا موثوقية نظامنا من خلال تدهور منهجي للنص المُصدر. وأخيرًا، حققنا معدّل BLEU قدره 44.6 و51.6 على مجموعة الاختبار ومجموعة التحدي في المهمة متعددة الوسائط على التوالي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp