الترابط اللفظي بواسطة حقل عشوائي شرطي مُسَلسل بوسوم ناعمة

يهدف مُهمة التأصيل (grounding task) إلى ربط كل ذكر لمُسمى في تعليق معين لصورة بمنطقة مُقابلة في تلك الصورة. رغم وجود اعتمادات واضحة بين كيفية تأصيل الذكريات المختلفة لنفس التعليق، فإن الطرق السابقة للتنبؤ الهيكلي التي تسعى إلى التقاط هذه الاعتمادات تحتاج إلى الاستعانة بالاستدلال التقريبي أو الخسائر غير القابلة للتفرقة. في هذا البحث، نُشكل مُهمة تأصيل الجمل كمهمة تصنيف متسلسل حيث نتعامل مع المناطق المرشحة كتوصيفات محتملة، ونستخدم حقول العشوائية الشرطية السلاسل العصبية (neural chain Conditional Random Fields - CRFs) لنمذجة الاعتمادات بين المناطق المجاورة للذكريات. على عكس المهام التقليدية للتصنيف المتسلسل، يتم تعريف مُهمة تأصيل الجمل بحيث قد تكون هناك مناطق مرشحة صحيحة متعددة. لمعالجة هذا التنوع في التوصيفات الذهبية، نعرّف ما يُعرف بـ CRFs سلسلة التوصيف الناعم (Soft-Label Chain CRFs)، ونقدم خوارزمية تمكّن من التدريب الشامل من البداية إلى النهاية. طريقتنا تنشئ مستوى جديدًا للمعايير الرائدة في تأصيل الجمل على مجموعة بيانات Flickr30k Entities. تظهر التحليلات أن نموذجنا يستفيد من الاعتمادات بين المُسميات التي يلتقطها CRF ومن نظام التدريب بتوصيفات ناعمة. شفرتنا المصدر متاحة على \url{github.com/liujch1998/SoftLabelCCRF}.