التوظيف الهرمي المكاني في شبكات التعلم العميق المت convoled للاعتراف البصري

الشبكات العصبية التلافيفية العميقة (CNNs) الحالية تتطلب صورة مدخل ذات حجم ثابت (مثل 224x224). هذا الشرط "اصطناعي" وقد يقلل من دقة التعرف على الصور أو الأجزاء الفرعية منها بحجم أو نطاق عشوائي. في هذا البحث، نزوّد الشبكات باستراتيجية تجميع أخرى تُسمى "التجميع الهرمي المكاني" لحذف الشرط أعلاه. الهيكل الجديد للشبكة، الذي يُطلق عليه اسم SPP-net، يمكنه إنتاج تمثيل ذو طول ثابت بغض النظر عن حجم الصورة أو نطاقها. كما أن التجميع الهرمي مقاوم للتشوهات الكائنية. مع هذه المزايا، يجب أن يحسن SPP-net عمومًا جميع طرق تصنيف الصور التي تعتمد على CNNs. على مجموعة بيانات ImageNet 2012، نوضح أن SPP-net يزيد من دقة العديد من هياكل CNN رغم تصاميمها المختلفة. وعلى مجموعتي بيانات Pascal VOC 2007 وCaltech101، حقق SPP-net أفضل النتائج الحالية في تصنيف الصور باستخدام تمثيل كامل للصورة واحدة فقط وعدم وجود ضبط دقيق.قوة SPP-net مهمة أيضًا في اكتشاف الكائنات. باستخدام SPP-net، نحسب خرائط الميزات من صورة كاملة مرة واحدة فقط، ثم نجمع الميزات في المناطق (الأجزاء الفرعية) العشوائية لإنتاج تمثيلات ذات طول ثابت لتدريب الكاشفات. هذه الطريقة تتجنب إعادة حساب الميزات التلافيفية بشكل متكرر. عند معالجة صور الاختبار، تكون طريقتنا أسرع بمقدار 24-102 مرة من طريقة R-CNN، بينما تحقق دقة أفضل أو مماثلة على Pascal VOC 2007.في تحدي ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2014، حللت طريقتنا في المرتبة الثانية في اكتشاف الكائنات والثالثة في تصنيف الصور بين جميع الفرق الـ38 المشاركة. كما يقدم هذا الكتاب الإلكتروني التحسينات التي أجريت لهذه المسابقة.