CP-DETR: توجيه مُحفِّز المفهوم DETR نحو كشف كائنات عالمي أقوى

تُركّز الأبحاث الحديثة في مجال الكشف عن الكائنات الشاملة على دمج اللغة في نموذج كشف مغلق متقدم (SoTA)، ثم تعميم المفاهيم المفتوحة من خلال بناء مجموعات بيانات ضخمة تتكوّن من أزواج (نص-منطقة) لتدريب النموذج. ومع ذلك، تواجه هذه الأساليب تحديين رئيسيين: (أ) كيفية الاستفادة بكفاءة من المعلومات السابقة المُقدّمة في النص المُوجّه (prompt) لتمكين التعميم الكائنات، و(ب) كيفية تقليل التحيّز في التماثل (alignment bias) في المهام اللاحقة، ما يؤدي إلى أداء غير مثالي في بعض السياقات التي تتجاوز مرحلة التدريب المسبق. لمعالجة هذه التحديات، نقترح نموذجًا أساسيًا قويًا للكشف الشامل يُسمّى CP-DETR، والذي يُظهر أداءً تنافسيًا في معظم السياقات، باستخدام وزن تدريب مسبق واحد فقط. بشكل خاص، قمنا بتصميم مشغل بصري هجين فعّال يعزز التفاعل بين النص الموجّه والصورة من خلال وحدات دمج على مقاييس مختلفة وعلى مقاييس متعددة. ثم، يتم دعم هذا المشغل الهجين للاستفادة الكاملة من المعلومات المُوجّهة من خلال دالة خسارة متعددة العلامات للنص الموجّه ورأس كشف مساعد. وبالإضافة إلى النصوص الموجّهة، قمنا بتصميم طريقتين عمليتين لاستخلاص النصوص الموجّهة المفاهيمية، وهما: النص الموجّه البصري والنص الموجّه المُحسَّن، اللذان يُستخدَمان لاستخلاص المفاهيم المجرّدة من أمثلة بصرية ملموسة، ويُقلّلان بشكل مستقر من تحيّز التماثل في المهام اللاحقة. وبفضل هذه التصاميم الفعّالة، يُظهر CP-DETR أداءً متفوّقًا في الكشف الشامل عبر طيف واسع من السياقات. على سبيل المثال، يحقق نموذج CP-DETR باستخدام هيكل Swin-T 47.6 نقطة AP بدون تدريب (zero-shot) على LVIS، ويحقق نموذج Swin-L 32.2 نقطة AP بدون تدريب على ODinW35. علاوةً على ذلك، يحقق منهجنا لاستخلاص النصوص الموجّهة البصرية 68.4 نقطة AP على مجموعة بيانات COCO (val) من خلال الكشف التفاعلي، بينما يحقق النص الموجّه المُحسَّن 73.1 نقطة AP بالكامل (fully-shot) على ODinW13.