توافق رسم المشهد المحلي والعالمي العميق لاسترجاع الصور والنصوص

تُركّز النُهج التقليدية لاسترجاع الصور والنصوص بشكل رئيسي على فهرسة الكائنات البصرية الظاهرة في الصور، لكنها تتجاهل التفاعلات بين هذه الكائنات. إن وجود هذه الكائنات وتفاعلاتها يُعدّ مفيدًا وحاسمًا بنفس القدر في هذا المجال، نظرًا لكونها غالبًا ما تُذكر في النصوص. تُعدّ تمثيلات الرسم البياني للمنظر (Scene Graph) طريقة مناسبة لمواجهة تحديات تطابق الصور والنصوص، حيث أظهرت نتائج جيدة بفضل قدرتها على التقاط المعلومات المتعلقة بالعلاقة المتبادلة بين الكائنات. يتم تمثيل كل من الصور والنصوص على مستوى الرسم البياني للمنظر، ويُحوّل تحدي الاسترجاع إلى تحدي مطابقة الرسوم البيانية للمنظر. في هذه الورقة، نقدّم نموذج مطابقة الرسم البياني للمنظر المحلي والعام (LGSGM) الذي يُحسّن من الأداء الحالي للنماذج عبر دمج شبكة ت.Convolution رسمية إضافية لالتقاط المعلومات العامة للرسم البياني. وبشكل محدد، يتم استخدام نموذجين منفصلين لتعلم ميزات عقد وحواف كل رسم بياني لصورة ووصفها. ثم يتم استخدام نموذج تشفير على هيكل مزدوج (Siamese-structure) للرسم البياني لتمثيل الرسوم البيانية على شكل متجهات. وأخيرًا، ندمج بين المستوى الرسومي والمُستوى المتجهي لحساب درجة التشابه بين زوج الصورة والنص. أظهرت التجارب التجريبية أن تحسيننا الناتج عن دمج المستويات يمكن أن يُحسّن أداء النموذج الأساسي بنسبة تزيد عن 10% في مقياس الاسترجاع (Recall) على مجموعة بيانات Flickr30k.