خسارة القطبية للكشف عن الأشياء دون تدريب مسبق

تتطلب نماذج الكشف التقليدية عن الأشياء كميات كبيرة من بيانات التدريب. بالمقارنة مع ذلك، يمكن للبشر التعرف على أشياء لم يروها من قبل بمجرد معرفة وصفها الدلالي. لتقليد هذا السلوك، يهدف الكشف عن الأشياء بدون أمثلة (Zero-Shot Object Detection) إلى التعرف على وتتبع حالات "غير مشاهدة" للأجسام باستخدام معلوماتها الدلالية فقط. يتم تدريب النموذج أولاً على تعلم العلاقات بين المجالات البصرية والدلالية للأجسام المشاهدة، ثم نقل المعرفة المكتسبة إلى الأجسام تمامًا غير المشاهدة. يؤدي هذا الإعداد إلى الحاجة إلى تناسق صحيح بين المفاهيم البصرية والدلالية، بحيث يمكن تحديد الأجسام غير المشاهدة باستخدام خصائصها الدلالية فقط.في هذه الورقة البحثية، نقترح دالة خسارة جديدة تُسمى "خسارة القطبية" (Polarity Loss)، والتي تعزز التناسق الصحيح بين المجالات البصرية والدلالية لتحقيق تحسين في الكشف عن الأشياء بدون أمثلة. من ناحية، تعمل على تحسين التضمينات الدلالية الضوضائية عبر التعلم المقاسري على "المفردات الدلالية" (Semantic Vocabulary) للمفاهيم ذات الصلة لتعزيز التناغم بين المجالات البصرية والدلالية. ومن ناحية أخرى، تعمل بشكل صريح على زيادة الفجوة بين التنبؤات الإيجابية والسالبة لتحقيق تمييز أفضل بين الأجسام المشاهدة وغير المشاهدة والأجسام الخلفية. يستند نهجنا إلى نظريات التجسيد في العلوم المعرفية، التي تدعي أن الفهم الدلالي للإنسان يعتمد على الخبرات السابقة (الأجسام المشاهدة)، والمفاهيم اللغوية ذات الصلة (المفردات الكلامية) والإدراك البصري (صور الأجسام المشاهدة وغير المشاهدة).نقوم بإجراء تقييمات شاملة على مجموعتي البيانات MS-COCO وPascal VOC، مما يظهر تحسينات كبيرة مقارنة بأحدث الأساليب المتاحة حاليًا.