إعادة التصنيف باستخدام التشابه بين الصورة واللغة للكشف عن الكائنات في حالات قليلة من الأمثلة

كشف الكشف عن الكائنات ذات القليل من الأمثلة، والذي يركّز على اكتشاف كائنات جديدة باستخدام عدد قليل من التسميات، عن تحدي مُستحدث في المجتمع العلمي. تُظهر الدراسات الحديثة أن تكييف نموذج مُدرّب مسبقًا أو وظيفة خسارة معدلة يمكن أن يحسّن الأداء. في هذه الورقة، نستكشف استغلال قوة التدريب المُسبق للغة والصورة التباينية (CLIP) ووظيفة خسارة التصنيف للسلبيات الصعبة في البيئات ذات البيانات المحدودة. بشكل خاص، نقترح طريقة تُسمى RISF (Re-scoring using Image-language Similarity for Few-shot object detection)، التي تُطوّر نموذج Faster R-CNN من خلال إدخال وحدة تصحيح باستخدام CLIP (CM-CLIP) ووظيفة خسارة لإعادة تعيين السلبيات الخلفية (BNRL). تُعد الوحدة الأولى تكييفًا لنموذج CLIP، الذي يُنفّذ التصنيف الصفر-النماذج، لإعادة تقييم درجات التصنيف الخاصة بالكشف باستخدام تشابه الصورة-التصنيف، بينما تُعد الوحدة الثانية نسخة معدلة لدالة الخسارة التصنيفية التي تأخذ بعين الاعتبار عقوبة التصنيفات الخاطئة للخلفيات، وكذلك التصنيفات المُربكة في مجموعة بيانات للكشف عن الكائنات ذات القليل من الأمثلة بشكل عام. أظهرت التجارب الواسعة على مجموعتي بيانات MS-COCO وPASCAL VOC أن RISF المقترحة تتفوّق بشكل كبير على أفضل الأساليب الحالية. سيتم إتاحة الكود.