RpBERT: نموذج BERT القائم على انتشار العلاقة النصية-الصورية للكيانات متعددة الوسائط

في الآونة الأخيرة، استخدمت تقنيات التعرف على الكيانات ذات الأسماء المتعددة الأوضاع (MNER) الصور لتحسين دقة التعرف على الكيانات ذات الأسماء (NER) في التغريدات. ومع ذلك، فإن معظم الطرق المتعددة الأوضاع تستخدم آليات الانتباه لاستخراج الدلائل البصرية دون النظر إلى ما إذا كان النص والصورة مرتبطين. عمليًا، تمثل الأزواج غير المرتبطة من النصوص والصور نسبة كبيرة في التغريدات. ستؤدي الدلائل البصرية غير المرتبطة بالنصوص إلى تأثيرات غير مؤكدة أو حتى سلبية على تعلم نماذج البيانات المتعددة الأوضاع. في هذا البحث، نقدم طريقة لنشر العلاقة بين النص والصورة في نموذج BERT المتعدد الأوضاع. ندمج بوابات مرنة أو صلبة لاختيار الدلائل البصرية ونقترح خوارزمية متعددة المهام لتدريبها على مجموعات بيانات MNER. في التجارب، قمنا بتحليل عميق للتغيرات في انتباه الصور قبل وبعد استخدام نشر العلاقة بين النص والصورة. حقق نموذجنا أداءً يتفوق على أفضل ما تم تحقيقه سابقًا في مجموعات بيانات MNER.