التعلم الرسومي المُفَكَّك المُدرك للنمط للربط العباري

في هذه الورقة، نقترح إطارًا جديدًا للتعلم على الرسوم البيانية لتحديد موقع العبارات في الصور. بالانتقال من النموذج التسلسلي إلى النموذج الكثيف، تعاني الدراسات السابقة من القدرة على التقاط السياق المُجرَّد فقط، مع فشلها في التمييز بين تنوع السياقات بين العبارات والمناطق الصورية. على النقيض من ذلك، نولي اهتمامًا خاصًا بالأنماط المختلفة المُضمنة في سياق الرسم البياني للمنظر، ونُصمم شبكة رسم بياني منفصلة (Disentangled Graph Network) لدمج المعلومات السياقية المُدركة للأنماط في التمثيلات. بالإضافة إلى ذلك، نعتمد استراتيجيات تدخلية على مستويي الميزات والهيكل لتعزيز تمثيلات النموذج وجعلها أكثر عمومية. في النهاية، نستخدم شبكة الانتباه بين الوسائط لدمج الميزات داخل الوسائط، حيث يمكن حساب التشابه بين كل عبارة ومناطق الصورة لاختيار التمثيل المُثلى. ونُثبت كفاءة الشبكة الرسومية المنفصلة والتدخلية (DIGN) من خلال سلسلة من الدراسات التحليلية، وتحقق نماذجنا أداءً متميزًا على معايير Flickr30K Entities وReferIt Game.