DetCLIPv3: نحو كشف كائنات مفتوح المفردات توليدية متعددة الاستخدامات

تُعد الكاشفات الحالية للكائنات ذات فئة مفتوحة عادةً مُقيَّدة بوجود مجموعة محددة مسبقًا من الفئات التي يحددها المستخدم، مما يحد بشكل كبير من سيناريوهات تطبيقها. في هذه الورقة، نقدم DetCLIPv3، وهو كاشف يتميز بأداء عالٍ، ويتفوق ليس فقط في كشف الكائنات ذات فئة مفتوحة، بل أيضًا في إنشاء تسميات هرمية للكائنات المكتشفة. يتميز DetCLIPv3 بثلاثة تصاميم أساسية:1. معمارية نموذج متنوعة: استخلصنا إطار عمل قوي للكشف عن الفئات المفتوحة، وتم تعزيز قدرته على التوليد من خلال دمج رأس تسمية (caption head).2. بيانات ذات كثافة معلومات عالية: طوّرنا عملية تسمية تلقائية تعتمد على النماذج الكبيرة للغة البصرية (visual large language model) لتحسين التسميات الخاصة بأزواج الصور والنصوص على نطاق واسع، مما يوفر تسميات غنية ومتعددة المقاييس للكائنات، ويعزز من عملية التدريب.3. استراتيجية تدريب فعّالة: استخدمنا مرحلة ما قبل التدريب باستخدام إدخالات منخفضة الدقة، مما يمكّن كاشف التسمية من تعلّم طيف واسع من المفاهيم البصرية من بيانات صور ونصوص واسعة النطاق بكفاءة. تليها مرحلة التحسين الدقيق (fine-tuning) التي تستفيد من عدد قليل من العينات عالية الدقة لتعزيز أداء الكشف بشكل أكبر. بفضل هذه التصاميم الفعّالة، تُظهر DetCLIPv3 أداءً متميزًا في كشف الكائنات ذات فئة مفتوحة، حيث حقق نموذج الأساس Swin-T لدينا نتيجة ملحوظة بـ 47.0 نقطة AP بدون تدريب (zero-shot fixed AP) على معيار LVIS minival، متفوّقًا على GLIPv2 وGroundingDINO وDetCLIPv2 بنسبة 18.0 و19.6 و6.6 نقطة AP على التوالي. كما حققت DetCLIPv3 أداءً متميزًا في مهمة التسمية الكثيفة (dense captioning) على مجموعة بيانات VG، بتحقيق 19.7 نقطة AP، مما يُظهر قدرتها القوية على التوليد.