CLIP-EBC: يمكن لـ CLIP العد بدقة من خلال التصنيف المتوازي المُعزز

نُقدّم نموذج CLIP-EBC، وهو أول نموذج بالكامل مبني على CLIP لتقدير دقة كثافة الحشود بدقة. وعلى الرغم من النجاح البارز الذي أظهره نموذج CLIP في معالجة مهام التعرف مثل التصنيف الصوري بدون تدريب مسبق (zero-shot image classification)، إلا أن إمكاناته في مجال العد لم تُستكشف بشكل واسع بسبب التحديات الجوهرية المرتبطة بتحويل مشكلة الانحدار (مثل العد) إلى مهمة تصنيف. في هذا العمل، نستكشف ونُحسّن قدرة CLIP على العد، مع التركيز بشكل خاص على مهام تقدير أحجام الحشود من الصور. تُعاني الإطارات الحالية القائمة على التصنيف في تقدير كثافة الحشود من قيود كبيرة، منها تجزئة قيم العد إلى فئات ذات قيم صحيحة (integer-valued bins)، مما يؤدي إلى غموض في التسميات بالقرب من الحدود المشتركة بين الفئات، إضافة إلى التركيز الوحيد على أخطاء التصنيف. وتؤدي هذه الممارسات إلى تضليل في التسميات القريبة من الحدود المشتركة، وتُنتج تنبؤات غير دقيقة لقيم العد. وبالتالي، قد يؤدي التطبيق المباشر لـ CLIP ضمن هذه الإطارات إلى أداء غير مثالي.لحل هذه التحديات، نقترح أولًا إطارًا مُحسَّنًا للتصنيف الكتلي (Enhanced Blockwise Classification - EBC). على عكس الطرق السابقة، يستخدم EBC فئات ذات قيم صحيحة، مما يقلل بشكل فعّال من الغموض القريب من حدود الفئات. علاوةً على ذلك، يدمج EBC خسارة انحدارية قائمة على خرائط الكثافة لتحسين دقة التنبؤ بقيم العد. داخل إطار EBC المستقل عن الهيكل الأساسي (backbone-agnostic)، نُقدّم CLIP-EBC للاستفادة الكاملة من قدرات التعرف في CLIP في هذه المهمة. تُظهر التجارب الواسعة فعالية إطار EBC والأداء التنافسي لـ CLIP-EBC. وبشكل خاص، يمكن لـ EBC تحسين الطرق القائمة على التصنيف بحوالي 44.5% على مجموعة بيانات UCF-QNRF، بينما يحقق CLIP-EBC أداءً متقدمًا على مجموعة بيانات NWPU-Crowd، بخطأ متوسط مطلق (MAE) قدره 58.2 وانحراف معياري جذرى (RMSE) قدره 268.5، ما يمثل تحسنًا بنسبة 8.6% و13.3% على أفضل أداء سابق (STEERER). يمكن الوصول إلى الكود والوزن عبر الرابط: https://github.com/Yiming-M/CLIP-EBC.