التحديد بدون كاشف للربط المراقب الضعيف من خلال الفصل

في الوقت الراهن، توجد كميات هائلة من البيانات التي تتضمن صورًا ونصوصًا حرة الشكل مترابطة بشكل ضعيف مع هذه الصور. يُعنى التعلّم المُراقب بشكل ضعيف لربط العبارات (WSG) بمهام تحديد مواقع عبارات نصية عشوائية داخل الصور باستخدام هذه البيانات دون الحاجة إلى أي تسميات إضافية. ومع ذلك، يفترض معظم الطرق الحديثة الرائدة في مجال WSG وجود كاشف كائن مُدرّب مسبقًا، حيث تعتمد على هذا الكاشف لإنتاج مناطق الاهتمام (ROIs) لغرض التحديد. في هذا العمل، نركّز على مهمة WSG دون كاشف (DF-WSG)، بهدف حل مسألة WSG دون الاعتماد على كاشف مُدرّب مسبقًا. نتعلم كل شيء مباشرة من أزواج الصور والنصوص الحرة المرتبطة بها، مما يتيح لنا احتمال تحقيق ميزة في الفئات التي لا يغطيها الكاشف. الفكرة الأساسية وراء طريقة GbS (الربط من خلال الفصل) التي نقترحها تكمن في إنشاء ارتباطات من النص إلى مناطق الصورة من خلال عملية خلط عشوائي (alpha-blending) بين صورتين عشوائيتين، واستخدام النصوص المرتبطة بهذه الزوجية كشروط لاستعادة خريطة alpha من الصورة المدمجة باستخدام شبكة تجزئة. وفي وقت الاختبار، يمكننا استخدام العبارة المطلوبة كشرط للصورة غير المدمجة، مما يسمح لنا بتفسير الصورة الاختبارية على أنها تكوين مكوّن من منطقة تتوافق مع العبارة، ومنطقة مكملة. وباستخدام هذا النهج، نُظهر تحسنًا كبيرًا في الدقة، يصل إلى 8.5٪ مقارنةً بأفضل النماذج السابقة في مجال DF-WSG، على مجموعة متنوعة من المعايير مثل Flickr30K وVisual Genome وReferIt، فضلًا عن تحسن مكمل كبير (أعلى من 7٪) مقارنةً بالطرق القائمة على الكاشف في مسائل WSG.