جسر الفجوة بين التمثيلات على مستوى الكائن وعلى مستوى الصورة للكشف عن المفردات المفتوحة

المستشعرات الحالية للكشف عن الأشياء ذات المفردات المفتوحة تزيد عادة من حجم مفرداتها من خلال الاستفادة من أشكال مختلفة من الإشراف الضعيف. هذا يساعد على التعميم إلى أشياء جديدة أثناء الاستدلال. يتضمن نوعان شائعان من الإشراف الضعيف المستخدم في الكشف عن المفردات المفتوحة (OVD) النموذج المُعد مسبقًا CLIP والإشراف على مستوى الصورة. نلاحظ أن كلا هذين نمطَي الإشراف ليسا مُحَدَّدَيْن بشكل أمثل للمهمة: يتم تدريب CLIP باستخدام أزواج صورة-نص ويفتقر إلى تحديد دقيق لمواقع الأشياء، بينما تم استخدام الإشراف على مستوى الصورة مع قواعد افتراضية لا تحدد بدقة المناطق المحلية للأجسام. في هذا العمل، نقترح معالجة هذه المشكلة من خلال تنفيذ توجيه متمركز حول الأجسام للتمثيلات اللغوية من نموذج CLIP. بالإضافة إلى ذلك، نقوم بتوضيح الأجسام باستخدام الإشراف على مستوى الصورة فقط عبر عملية وضع العلامات الوهمية التي توفر مقترحات أجسام عالية الجودة وتساعد في توسيع المفردات أثناء التدريب. ننشئ جسرًا بين الاستراتيجيتين السابقتين للتوجيه الجسماني عبر دالة نقل وزني جديدة تجمع قواهما التكميلية. بجوهره، يسعى النموذج المقترح إلى تقليص الفجوة بين التمثيلات الجسمانية والصورية في إعداد OVD. على معيار COCO، يحقق النهج المقترح 36.6 AP50 للأصناف الجديدة، بمكسب مطلق قدره 8.2 فوق أفضل الأداء السابق. بالنسبة لـ LVIS، نتفوق على أفضل النماذج الحالية ViLD بمقدار 5.0 mask AP للأصناف النادرة و3.4 بشكل عام. الرمز: https://github.com/hanoonaR/object-centric-ovd.