الاستدلال على التشابه وتصفية التطابق بين الصورة والنص

تلعب المطابقة بين الصور والنصوص دورًا حاسمًا في ربط الرؤية واللغة، وقد تم إحراز تقدم كبير من خلال استغلال التوافق العالمي بين الصورة والجملة، أو التوافق المحلي بين المناطق والكلمات. ومع ذلك، ما زال مسألة كيفية الاستفادة القصوى من هذه التوافقات لاستنتاج درجات مطابقة أكثر دقة موضوعًا غير مُستكشَف بالكامل. في هذا البحث، نقترح شبكة جديدة تُسمى "استدلال الرسم البياني للتشابه وتصفية الانتباه" (SGRAF) لمطابقة الصور والنصوص. بشكل خاص، يتم أولًا تعلُّم تمثيلات التشابه القائمة على المتجهات لتمثيل التوافق المحلي والعام بطريقة أكثر شمولاً، ثم يتم تقديم وحدة "استدلال الرسم البياني للتشابه" (SGR) التي تعتمد على شبكة عصبية متعددة الطبقات بالرسم البياني (GCN) لاستنتاج تشابهات مُستندة إلى العلاقات باستخدام التوافق المحلي والعام معًا. كما تم تطوير وحدة "تصفية الانتباه للتشابه" (SAF) لدمج هذه التوافقات بشكل فعّال من خلال التركيز المُختار على التوافقات المهمة والتمثيلية، مع تجاهل التداخلات الناتجة عن التوافقات غير المفيدة. نُظهر تفوق الطريقة المقترحة من خلال تحقيق أداءً من الدرجة الأولى على مجموعتي بيانات Flickr30K وMSCOCO، كما نُظهر قابلية تفسير جيدة لوحدتي SGR وSAF من خلال تجارب نوعية وتحليلات واسعة.