الهرم الغني للسمات للكشف الدقيق عن الأشياء والتقسيم الدلالي

أداء اكتشاف الأشياء، كما تم قياسه على مجموعة بيانات PASCAL VOC القياسية، قد توقف عن التحسن في السنوات الأخيرة. أفضل الأساليب المستخدمة هي أنظمة مركبة معقدة تجمع عادةً بين العديد من الخصائص الصورية الأولية والسياق العالي المستوى. في هذا البحث، نقترح خوارزمية بسيطة وقابلة للتوسع للاكتشاف تحسن الدقة المتوسطة (mAP) بنسبة تزيد عن 30٪ مقارنة بأفضل نتيجة سابقة على مجموعة بيانات VOC 2012---محققةً دقة متوسطة قدرها 53.3٪. يجمع نهجنا بين فكرتين أساسيتين: (1) يمكن تطبيق شبكات العصبونات المتلافهة ذات السعة العالية (CNNs) على مقترحات المناطق من الأسفل إلى الأعلى لتحديد موقع وتقسيم الأشياء، و(2) عندما تكون البيانات التدريبية المصنفة نادرة، فإن التدريب الإشرافي المسبق لمهمة مساعدة، يتبعه ضبط دقيق خاص بالمنطقة، يؤدي إلى زيادة كبيرة في الأداء. بما أننا نجمع بين مقترحات المناطق وشبكات العصبونات المتلافهة، فقد أطلقنا على طريقتنا اسم R-CNN: مناطق مع خصائص CNN. نقوم أيضًا بمقارنة R-CNN مع OverFeat، وهو كاشف نوافذ زلزالية مقترح حديثًا يستند إلى هندسة CNN مشابهة. نجد أن R-CNN يتفوق بشكل كبير على OverFeat في مجموعة بيانات اكتشاف ILSVRC2013 التي تحتوي على 200 تصنيف. يمكن الوصول إلى شفرة المصدر لنظام كامل عبر الرابط http://www.cs.berkeley.edu/~rbg/rcnn.