CBNet: هي بنية شبكة خلفية مركبة للكشف عن الكائنات

تعتمد الكاشفات الحديثة ذات الأداء العالي بشكل كبير على الشبكات الأساسية (backbone networks)، حيث تُحقق التطورات في هذه الشبكات مكاسب مستمرة في الأداء من خلال استكشاف هيكل شبكي أكثر فعالية. في هذه الورقة، نقترح إطارًا جديدًا ومرنًا للشبكة الأساسية يُدعى CBNetV2، والذي يُستخدم لبناء كاشفات عالية الأداء باستخدام الشبكات الأساسية المُدرّبة مسبقًا المفتوحة المصدر ضمن نموذج التدريب المُعدّل (pre-training fine-tuning). بشكل خاص، يُجمّع معمّق CBNetV2 عدة شبكات أساسية متماثلة، متصلة عبر اتصالات مركبة (composite connections). وبشكل دقيق، يدمج هذا الإطار بين الميزات عالية المستوى وعالية التفاصيل من عدة شبكات أساسية، ويعزز تدريجيًا مجال الاستقبال (receptive field) لتحسين كفاءة الكشف عن الأجسام. كما نقترح استراتيجية تدريب محسّنة تستخدم إشرافًا مساعدًا (assistant supervision) للكاشفات القائمة على CBNet. وبلا حاجة إلى تدريب مسبق إضافي للشبكة الأساسية المركبة، يمكن لـ CBNetV2 التكيّف مع أنواع مختلفة من الشبكات الأساسية (التي تعتمد على الشبكات العصبية التلافيفية CNN مقابل تلك القائمة على المُحولات Transformer) ومع أنماط مختلفة لوحدة الكاشف (الكاشفات أحادية المرحلة مقابل ثنائية المراحل، والكاشفات القائمة على الأطر المرجعية مقابل غير القائمة عليها). توفر التجارب أدلة قوية على أن CBNetV2 يقدّم طريقة أكثر كفاءة وفعالية وصديقة للموارد مقارنةً ببساطة زيادة عمق وعرض الشبكة لبناء شبكات أساسية عالية الأداء. وبشكل خاص، حقق نموذجنا Dual-Swin-L أداءً قدره 59.4% في مقياس AP للإطارات (box AP) و51.6% في مقياس AP للأقنعة (mask AP) على مجموعة بيانات COCO test-dev، ضمن بروتوكول الاختبار بنموذج واحد ومقياس واحد، وهو ما يفوق بشكل ملحوظ النتيجة القياسية (57.7% box AP و50.2% mask AP) التي حققها Swin-L، مع تقليل جدول التدريب بنسبة 6 أضعاف. وباستخدام الاختبار متعدد المقاييس، تمكّنا من تحقيق رقم قياسي جديد بلغ 60.1% box AP و52.3% mask AP باستخدام نموذج واحد دون الحاجة إلى بيانات تدريب إضافية. يُمكن الوصول إلى الشفرة المصدرية عبر الرابط: https://github.com/VDIGPKU/CBNetV2.