سياق-صورة إلى كلمة: ربط الصور بالكلمات المعتمدة على السياق للبحث الدقيق عن الصور المركبة دون الحاجة إلى تدريب مسبق

يختلف مهمة استرجاع الصور المركبة عن مهمة استرجاع الصور التقليدية التي تتطلب تسميات باهظة الثمن لتدريب نماذج محددة للمهمة. أما في استرجاع الصور المركبة بدون تدريب مسبق (ZS-CIR)، فتتضمن مجموعة متنوعة من المهام ذات نطاق واسع من نوايا تعديل المحتوى البصري، والتي قد تكون مرتبطة بالمجال، أو المشهد، أو الكائن، أو الخاصية. التحدي الرئيسي في مهام ZS-CIR هو تعلم تمثيل صورة أكثر دقة يركز بشكل متكيف على الصورة المرجعية بناءً على مختلف وصفات التعديل. في هذا البحث، نقترح شبكة خرائط تعتمد على السياق جديدة تُسمى Context-I2W، لتحويل المعلومات البصرية ذات الصلة بالوصف إلى رمز كلمة زائفة يتكون من الوصف بدقة لـ ZS-CIR. تحديداً، يقوم منتقي وجه النوايا أولاً بتعلم قاعدة دوران ديناميكية لرسم خريطة الصورة المتطابقة إلى وجه تعديل محدد للمهمة. ثم يقوم مستخرج الهدف البصري بتقاطر المعلومات المحلية التي تغطي الأهداف الرئيسية في مهام ZS-CIR تحت إرشاد عدة استعلامات قابلة للتعلم. يعمل هذان الوحدان التكميليان معًا لرسم خريطة الصورة إلى رمز كلمة زائفة يعتمد على السياق دون الحاجة إلى إشراف إضافي. يظهر نموذجنا قدرة تعميم قوية في أربع مهام ZS-CIR، بما في ذلك تحويل المجال، وتكوين الكائنات، وتعديل الكائنات، وتعديل الخصائص. يحقق نموذجنا زيادة ثابتة ومعنوية في الأداء تتراوح بين 1.88٪ و3.60٪ مقارنة بأفضل الأساليب ويحصل على أفضل النتائج الحالية في ZS-CIR. يمكن الوصول إلى كودنا عبر الرابط: https://github.com/Pter61/context-i2w.