HyperAIHyperAI
منذ 11 أيام

فيتا: الترجمة البصرية-اللغوية من خلال محاذاة تسميات الكائنات

Kshitij Gupta, Devansh Gautam, Radhika Mamidi
فيتا: الترجمة البصرية-اللغوية من خلال محاذاة تسميات الكائنات
الملخص

يُعد الترجمة الآلية متعددة الوسائط (MMT) وسيلة لتعزيز النص المُصدر بمعلومات بصرية لتحسين عملية الترجمة. وقد اكتسبت هذه المهمة شعبية في السنوات الأخيرة، وتم اقتراح العديد من العمليات (Pipelines) في هذا الاتجاه. ومع ذلك، ما زال يُعاني هذا المجال من نقص في مجموعات البيانات عالية الجودة التي تُظهر مساهمة الوسيط البصري في أنظمة الترجمة. في هذه الورقة، نُقدّم نظامنا تحت اسم الفريق "فولتا" للمهمة متعددة الوسائط في مسابقة WAT 2021، وذلك لترجمة النص الإنجليزي إلى الهندي. كما نشارك في المهمة الفرعية النصية فقط لنفس زوج اللغة، حيث نستخدم نموذج mBART، وهو نموذج متعدد اللغات مُدرّب مسبقًا على التسلسل من التسلسل. أما في حالة الترجمة متعددة الوسائط، فإننا نقترح تعزيز المدخل النصي من خلال تحويل المعلومات البصرية إلى المجال النصي، وذلك عبر استخراج علامات الكائنات من الصورة. كما نستكشف أيضًا موثوقية نظامنا من خلال تدهور منهجي للنص المُصدر. وأخيرًا، حققنا معدّل BLEU قدره 44.6 و51.6 على مجموعة الاختبار ومجموعة التحدي في المهمة متعددة الوسائط على التوالي.

فيتا: الترجمة البصرية-اللغوية من خلال محاذاة تسميات الكائنات | أحدث الأوراق البحثية | HyperAI