HyperAIHyperAI
منذ 18 أيام

CBNet: هي بنية شبكة خلفية مركبة للكشف عن الكائنات

Tingting Liang, Xiaojie Chu, Yudong Liu, Yongtao Wang, Zhi Tang, Wei Chu, Jingdong Chen, Haibin Ling
CBNet: هي بنية شبكة خلفية مركبة للكشف عن الكائنات
الملخص

تعتمد الكاشفات الحديثة ذات الأداء العالي بشكل كبير على الشبكات الأساسية (backbone networks)، حيث تُحقق التطورات في هذه الشبكات مكاسب مستمرة في الأداء من خلال استكشاف هيكل شبكي أكثر فعالية. في هذه الورقة، نقترح إطارًا جديدًا ومرنًا للشبكة الأساسية يُدعى CBNetV2، والذي يُستخدم لبناء كاشفات عالية الأداء باستخدام الشبكات الأساسية المُدرّبة مسبقًا المفتوحة المصدر ضمن نموذج التدريب المُعدّل (pre-training fine-tuning). بشكل خاص، يُجمّع معمّق CBNetV2 عدة شبكات أساسية متماثلة، متصلة عبر اتصالات مركبة (composite connections). وبشكل دقيق، يدمج هذا الإطار بين الميزات عالية المستوى وعالية التفاصيل من عدة شبكات أساسية، ويعزز تدريجيًا مجال الاستقبال (receptive field) لتحسين كفاءة الكشف عن الأجسام. كما نقترح استراتيجية تدريب محسّنة تستخدم إشرافًا مساعدًا (assistant supervision) للكاشفات القائمة على CBNet. وبلا حاجة إلى تدريب مسبق إضافي للشبكة الأساسية المركبة، يمكن لـ CBNetV2 التكيّف مع أنواع مختلفة من الشبكات الأساسية (التي تعتمد على الشبكات العصبية التلافيفية CNN مقابل تلك القائمة على المُحولات Transformer) ومع أنماط مختلفة لوحدة الكاشف (الكاشفات أحادية المرحلة مقابل ثنائية المراحل، والكاشفات القائمة على الأطر المرجعية مقابل غير القائمة عليها). توفر التجارب أدلة قوية على أن CBNetV2 يقدّم طريقة أكثر كفاءة وفعالية وصديقة للموارد مقارنةً ببساطة زيادة عمق وعرض الشبكة لبناء شبكات أساسية عالية الأداء. وبشكل خاص، حقق نموذجنا Dual-Swin-L أداءً قدره 59.4% في مقياس AP للإطارات (box AP) و51.6% في مقياس AP للأقنعة (mask AP) على مجموعة بيانات COCO test-dev، ضمن بروتوكول الاختبار بنموذج واحد ومقياس واحد، وهو ما يفوق بشكل ملحوظ النتيجة القياسية (57.7% box AP و50.2% mask AP) التي حققها Swin-L، مع تقليل جدول التدريب بنسبة 6 أضعاف. وباستخدام الاختبار متعدد المقاييس، تمكّنا من تحقيق رقم قياسي جديد بلغ 60.1% box AP و52.3% mask AP باستخدام نموذج واحد دون الحاجة إلى بيانات تدريب إضافية. يُمكن الوصول إلى الشفرة المصدرية عبر الرابط: https://github.com/VDIGPKU/CBNetV2.