التوافق الصوتي بين الصور عبر اللغات باستخدام سؤال وجواب للتقسيم الدلالي المراقب الضعيف

لقد برزت خريطة التفعيل الفئة (CAM) كأداة شائعة لتقسيم الدلالة المراقبة الضعيفة (WSSS)، حيث تسمح بتحديد مناطق الكائنات في الصورة باستخدام علامات مستوى الصورة فقط. ومع ذلك، تعاني الطرق الحالية المبنية على CAM من تفعيل غير كافٍ لمناطق الكائن المستهدفة، بالإضافة إلى تفعيل خاطئ للمناطق الخلفية، وذلك بسبب قلة المراقبة التفصيلية التي قد تعيق قدرة النموذج على فهم الصورة ككل. في هذه الورقة، نقترح إطارًا جديدًا يُسمى "الاستجابة على الأسئلة عبر التوافق بين اللغة والصورة" (QA-CLIMS) لتقسيم الدلالة المراقبة الضعيفة، مستفيدًا من النموذج الأساسي للرؤية واللغة لتحقيق أقصى استفادة من الفهم القائم على النص للصور، وتوجيه إنشاء خرائط التفعيل. أولاً، نطرح مجموعة من الأسئلة المصممة بعناية إلى نموذج الإجابة على الأسئلة البصرية (VQA) باستخدام تقنية تهيئة نموذج الأسئلة والإجابات (QAPE)، بهدف إنشاء مجموعة نصية تتضمن كلاً من الكائنات الأمامية (الهدف) والخلفيات، مُعدّة خصيصًا للصور المستفسَرة. ثم نستخدم التعلم التمييزي في شبكة التوافق بين الصورة والنص للمناطق (RITC) للمقارنة بين المناطق المُستخلصة (الخلفية والأمامية) مع المجموعة النصية المُولَّدة. يُستغل في هذا النهج المعلومات النصية الغنية من المفردات المفتوحة كمصدر إضافي للإشراف، مما يمكّن النموذج من إنتاج خرائط CAM عالية الجودة، مع تغطية أكثر شمولاً لمنطقة الكائن، وتقليل التفعيل الخاطئ للخلفيات. قمنا بتحليل واسع لتأكيد صحة المنهج المقترح، وبيّنا أن أسلوبنا يحقق أداءً متميزًا على كلا المجموعتين PASCAL VOC 2012 وMS COCO. الكود متاح عبر: https://github.com/CVI-SZU/QA-CLIMS