منذ 2 أشهر

المطابقة بين الصور والجمل مع الوعي بالمثيلات باستخدام LSTM متعددة الوسائط منتقاة

Yan Huang; Wei Wang; Liang Wang

الملخص

التطابق الفعال بين الصور والجمل يعتمد على كيفية قياس التشابه البصري-الدلالاتي الشامل بينهما بشكل جيد. بناءً على الملاحظة أن هذا التشابه الشامل ينشأ من تجميع معقد لعدة تشابهات محلية بين أزواج من حالات الصورة (الأجسام) والجملة (الكلمات)، نقترح شبكة ذاكرة طويلة المدى قصيرة المدى متعددة الوسائط انتقائية (sm-LSTM) للتطابق بين الصور والجمل مع الوعي بالحالات. تتضمن sm-LSTM مخططًا انتباهيًا معدلًا بالسياق متعدد الوسائط في كل خطوة زمنية يمكنه التركيز بشكل انتقائي على زوج من حالات الصورة والجملة، وذلك من خلال التنبؤ بخرائط السلاسيفية (saliency maps) الانتقائية للأزواج في الصورة والجملة. بالنسبة للأزواج الانتقائية المختارة، يتم الحصول على تمثيلاتها استنادًا إلى الخرائط المتوقعة للسلاسيفية، ثم يتم مقارنتها لقياس تشابهها المحلي. وبقياس عدة تشابهات محلية مشابهة خلال بضع خطوات زمنية، تقوم sm-LSTM بتجميعها تتابعيًا مع الحالات الخفية للحصول على درجة التطابق النهائية كتشابه شامل مرغوب. تظهر التجارب الواسعة أن نموذجنا يمكنه التطابق بشكل جيد بين الصور والجمل ذات المحتوى المعقد، وتحقيق أفضل النتائج الحالية في مجموعة بيانات عامة مرجعية (benchmark dataset) اثنتين.