SSD: كاشف متعدد الصناديق ب الطلقة الواحدة

نقدم طريقة للكشف عن الأشياء في الصور باستخدام شبكة عصبية عميقة واحدة. نهجنا، المسمى SSD (Single Shot MultiBox Detector)، يقوم بتقسيم مساحة الإخراج للصناديق الحدودية إلى مجموعة من الصناديق الافتراضية بمعدلات جوانب ومقاييس مختلفة لكل موقع خريطة الميزات. عند وقت التنبؤ، تولد الشبكة درجات لوجود كل فئة من الأشياء في كل صندوق افتراضي وتقوم بإنتاج تعديلات على الصندوق لتحسين مطابقته لشكل الجسم. بالإضافة إلى ذلك، تقوم الشبكة بدمج التوقعات من خرائط الميزات المتعددة بدقائق مختلفة للتعامل بشكل طبيعي مع الأجسام بأحجام مختلفة. نموذج SSD الخاص بنا بسيط نسبيًا بالمقارنة مع الطرق التي تتطلب اقتراح أجسام لأنها تلغي تمامًا مرحلة اقتراح الأجسام والمرحلة اللاحقة لإعادة عينات البكسل أو الميزات، وتحتوي على جميع الحسابات في شبكة واحدة. هذا يجعل SSD سهل التدريب وبسيط في دمجه في الأنظمة التي تحتاج إلى مكون كشف. النتائج التجريبية على مجموعات البيانات PASCAL VOC و MS COCO و ILSVRC تؤكد أن SSD يمتلك دقة مقارنة بالطرق التي تستفيد من خطوة إضافية لاقتراح الأجسام وأنه أسرع بكثير، بينما يوفر إطار عمل موحد لكل من التدريب والاستدلال. بالمقارنة مع الطرق ذات المرحلة الواحدة الأخرى، فإن SSD يتمتع بدقة أعلى بكثير، حتى مع حجم صورة إدخال أصغر. بالنسبة لمدخل $300 \times 300$، يصل SSD إلى نسبة mAP (Mean Average Precision) 72.1% على اختبار VOC2007 بمعدل 58 إطارًا في الثانية على بطاقة Nvidia Titan X، وبالنسبة لمدخل $500 \times 500$، يصل SSD إلى نسبة mAP 75.1%,متفوقًا بذلك على نموذج Faster R-CNN الرائد المكافئ. الكود متاح على https://github.com/weiliu89/caffe/tree/ssd .