Reiche MerkmalsHierarchien für genaue Objekterkennung und semantische Segmentierung

Die Leistung der Objekterkennung, gemessen am kanonischen PASCAL VOC-Datensatz, ist in den letzten Jahren stagniert. Die leistungsstärksten Methoden sind komplexe Ensemble-Systeme, die in der Regel mehrere niedrigstufige Bildmerkmale mit hochstufigem Kontext kombinieren. In dieser Arbeit schlagen wir einen einfachen und skalierbaren Erkennungsalgorithmus vor, der die mittlere durchschnittliche Genauigkeit (mAP) um mehr als 30% im Vergleich zum bisher besten Ergebnis auf VOC 2012 verbessert – eine mAP von 53,3% erreicht. Unser Ansatz vereint zwei wesentliche Erkenntnisse: (1) Man kann hochkapazitäre Faltungsneuronale Netze (CNNs) auf bottom-up Regionenvorschläge anwenden, um Objekte zu lokalisieren und zu segmentieren und (2) wenn etikettierte Trainingsdaten knapp sind, führt überwachtes Vor-Training für eine Nebenaufgabe gefolgt von domänenspezifischem Feinjustierung zu einem erheblichen Leistungsanstieg. Da wir Regionenvorschläge mit CNNs kombinieren, nennen wir unsere Methode R-CNN: Regions with CNN features (mit CNN-Merkmalen). Wir vergleichen R-CNN auch mit OverFeat, einem kürzlich vorgeschlagenen Sliding-Window-Detektor basierend auf einer ähnlichen CNN-Architektur. Wir stellen fest, dass R-CNN auf dem 200-Klassen-ILSVRC2013-Erkennungsdatensatz deutlich bessere Ergebnisse liefert als OverFeat. Der Quellcode des vollständigen Systems ist unter http://www.cs.berkeley.edu/~rbg/rcnn verfügbar.