HyperAIHyperAI
منذ 15 أيام

الاستدلال البصري الدلالي للتطابق بين الصورة والنص

Kunpeng Li, Yulun Zhang, Kai Li, Yuanyuan Li, Yun Fu
الاستدلال البصري الدلالي للتطابق بين الصورة والنص
الملخص

تمثيل الصورة والنص يُعد موضوعًا بحثيًا مثيرًا للانتباه يربط بين مجالات الرؤية الحاسوبية واللغة. لا يزال يُعد تحديًا كبيرًا، نظرًا لافتقار التمثيل الحالي للصورة إلى المفاهيم الدلالية الشاملة التي توجد في الوصف النصي المقابل لها. لمعالجة هذه المشكلة، نقترح نموذجًا بسيطًا وقابلًا للتفسير لاستخلاص تمثيل بصري يُمكّن من اكتشاف الكائنات الأساسية والمعاني الدلالية للسياق. بشكل محدد، نقوم أولًا ببناء روابط بين مناطق الصورة، ثم نُطبّق عملية استنتاج باستخدام شبكات الت(Convolutional Networks) لاستخلاص ميزات تمتلك علاقات دلالية. ثم نقترح استخدام آلية البوابة (gate) والذاكرة (memory) لإجراء استنتاج دلالي عالمي على هذه الميزات المُحسّنة بالعلاقات، بهدف اختيار المعلومات التمييزية وبناء تمثيل للصورة بأكملها تدريجيًا. تؤكد التجارب أن طريقة العمل لدينا تحقق أفضل أداء مُحقَّق حتى الآن في مطابقة الصورة والنص على مجموعتي بيانات MS-COCO وFlickr30K. حيث تتفوّق على أفضل طريقة حالية بنسبة 6.8% في مهام استرجاع الصور وبنسبة 4.8% في استرجاع الوصف النصي على MS-COCO (مقياس الاسترجاع@1 باستخدام مجموعة اختبار بحجم 1K). وعلى Flickr30K، تتحسّن أداء استرجاع الصور بنسبة 12.6%، وتحسين استرجاع الوصف النصي بنسبة 5.8% (مقياس الاسترجاع@1). يمكن الوصول إلى الكود الخاص بنا عبر الرابط: https://github.com/KunpengLi1994/VSRN.