HyperAIHyperAI
منذ 2 أشهر

CORA: تكيف CLIP للكشف عن المفردات المفتوحة باستخدام التحفيز الإقليمي وتطابق الأناكرا الأولي

Wu, Xiaoshi ; Zhu, Feng ; Zhao, Rui ; Li, Hongsheng
CORA: تكيف CLIP للكشف عن المفردات المفتوحة باستخدام التحفيز الإقليمي وتطابق الأناكرا الأولي
الملخص

الكشف عن المفردات المفتوحة (OVD) هو مهمة كشف الأشياء تهدف إلى اكتشاف الأشياء من فئات جديدة تتجاوز الفئات الأساسية التي تم تدريب الكاشف عليها. تعتمد طرق OVD الحديثة على نماذج مسبقة التدريب على نطاق واسع في مجال الرؤية واللغة، مثل CLIP، لتحديد الأشياء الجديدة. قدّمنا حلاً لهذه المشكلة من خلال تحديد العقبتين الأساسيتين اللتين يجب التعامل معهما عند دمج هذه النماذج في تدريب الكاشف: (1) عدم التطابق في التوزيع الذي يحدث عند تطبيق نموذج رؤية-لغة مدرب على صور كاملة للمهام التي تتطلب التعرف على المناطق؛ (2) صعوبة تحديد موقع الأشياء من الفئات غير المعروفة.للتغلب على هاتين العقبتين، نقترح نظام CORA، وهو إطار يشبه DETR يقوم بتكيف CLIP للكشف عن المفردات المفتوحة من خلال إثارة المناطق (Region prompting) ومطابقة النقاط المرجعية مسبقًا (Anchor pre-matching). تقوم إثارة المناطق بتعويض الفجوة بين التوزيع الكامل والتوزيع الإقليمي من خلال إثارة خصائص المناطق لنظام تصنيف المناطق القائم على CLIP. أما مطابقة النقاط المرجعية مسبقًا فتساعد في تعلم آليات تحديد الموقع القابلة للتعميم عبر آلية مطابقة واعية بالفئة.قدّمنا تقييمًا لنظام CORA باستخدام مقاييس COCO OVD، حيث حققنا 41.7 AP50 في الفئات الجديدة، مما يتفوق على أفضل النتائج السابقة بمقدار 2.4 AP50 حتى دون الحاجة إلى بيانات تدريب إضافية. عندما تكون هناك بيانات تدريب إضافية متاحة، نقوم بتدريب CORA$^+$ باستخدام كل من شروح الفئات الأساسية الحقيقية والعلامات الحدودية الوهمية الإضافية التي يتم حسابها بواسطة CORA. حقق CORA$^+$ 43.1 AP50 في مقاييس COCO OVD و28.1 box APr في مقاييس LVIS OVD.

CORA: تكيف CLIP للكشف عن المفردات المفتوحة باستخدام التحفيز الإقليمي وتطابق الأناكرا الأولي | أحدث الأوراق البحثية | HyperAI