كاسكاد ر-سي إن سي إن: الكشف عالي الجودة عن الأشياء وتقسيم النماذج

في مجال اكتشاف الأشياء، يتم استخدام عتبة التقاطع على الاتحاد (Intersection over Union - IoU) بشكل متكرر لتحديد الإيجابيات/السلبيات. العتبة المستخدمة في تدريب الكاشف تعريف جودته. بينما يؤدي استخدام العتبة الشائعة البالغة 0.5 إلى اكتشافات ضوضائية (منخفضة الجودة)، غالباً ما تتدهور أداء الاكتشاف عند زيادة العتبات. يعود هذا التناقض في اكتشاف عالي الجودة إلى سببين: 1) الانطباع الزائد، نتيجة اختفاء العينات الإيجابية للعتبات الكبيرة، و2) عدم التطابق في الجودة بين فرضيات الاستدلال والكاشفات.لحل هذه المشاكل، تم اقتراح معمارية اكتشاف الأشياء متعددة المراحل تُعرف بـ Cascade R-CNN، والتي تتكون من سلسلة من الكاشفات التي يتم تدريبها باستخدام عتبات IoU متزايدة. يتم تدريب الكاشفات بشكل متتابع، باستخدام مخرجات كاشف كمجموعة تدريبية للكاشف التالي. هذا إعادة التوزيع يحسن تدريجياً جودة الفرضيات، ويضمن وجود مجموعة تدريب إيجابية متكافئة الحجم لكافة الكاشفات ويقلل من الانطباع الزائد. يتم تطبيق نفس السلسلة أثناء الاستدلال لتجنب عدم التطابق في الجودة بين الفرضيات والكاشفات.يحقق تنفيذ Cascade R-CNN بدون أي تعديلات أو إضافات أداءً رائداً على مجموعة بيانات COCO، ويعزز بشكل كبير من جودة الاكتشاف على مجموعات بيانات الاكتشاف العامة والمحددة للأشياء، بما في ذلك VOC و KITTI و CityPerson و WiderFace. أخيرًا، تم توسيع نطاق Cascade R-CNN ليشمل تقسيم النماذج (instance segmentation)، مما حقق تحسينات غير بسيطة على Mask R-CNN.لتسهيل البحث المستقبلي، تم توفير تنفيذين لهذه المعمارية في \url{https://github.com/zhaoweicai/cascade-rcnn} (Caffe) وفي \url{https://github.com/zhaoweicai/Detectron-Cascade-RCNN} (Detectron).