Cascade R-CNN: Hochwertige Objekterkennung und Instanzsegmentierung

Im Bereich der Objekterkennung wird die Schwellenwertdefinition für den Intersection-over-Union (IoU)-Wert häufig verwendet, um Positive und Negative zu definieren. Der zur Ausbildung eines Detektors verwendete Schwellenwert definiert dessen \textit{Qualität}. Während der üblicherweise verwendete Schwellenwert von 0.5 zu verrauschten (niedriger Qualität) Erkennungen führt, verschlechtert sich die Erkennungsleistung häufig bei höheren Schwellenwerten. Dieses Paradoxon der hochqualitativen Erkennung hat zwei Ursachen: 1) Überanpassung, bedingt durch das Verschwinden positiver Beispiele bei großen Schwellenwerten, und 2) Qualitätsunterschiede zwischen Detektoren und Testhypothesen während der Inferenz. Um diese Probleme zu lösen, wird eine mehrstufige Objekterkennungsarchitektur vorgeschlagen, der Cascade R-CNN, die aus einer Reihe von Detektoren besteht, die mit steigenden IoU-Schwellenwerten ausgebildet werden. Die Detektoren werden sequentiell trainiert, wobei die Ausgabe eines Detektors als Trainingsdatensatz für den nächsten dient. Diese erneute Stichprobenerhebung verbessert die Hypothesenqualität schrittweise, gewährleistet einen gleichwertigen Umfang an positiven Trainingsbeispielen für alle Detektoren und minimiert Überanpassung. Dasselbe Kaskadenverfahren wird auch während der Inferenz angewendet, um Qualitätsunterschiede zwischen Hypothesen und Detektoren zu beseitigen. Eine Implementierung des Cascade R-CNN ohne zusätzliche Verfeinerungen erreicht den aktuellen Stand der Technik auf dem COCO-Datensatz und verbessert signifikant die hochqualitative Erkennung auf generischen und spezifischen Objekterkennungsdatensätzen, einschließlich VOC, KITTI, CityPerson und WiderFace. Abschließend wird der Cascade R-CNN auf die Instanzsegmentierung verallgemeinert, wobei er gegenüber dem Mask R-CNN nichttriviale Verbesserungen erzielt. Um zukünftige Forschungen zu erleichtern, werden zwei Implementierungen unter \url{https://github.com/zhaoweicai/cascade-rcnn} (Caffe) und \url{https://github.com/zhaoweicai/Detectron-Cascade-RCNN} (Detectron) zur Verfügung gestellt.