Cascade R-CNN: Ein tiefer Einblick in hochwertige Objekterkennung

Im Bereich der Objekterkennung ist ein Schwellenwert für den Overlap (Intersection over Union, IoU) erforderlich, um Positive und Negative zu definieren. Ein Objekterkennungsmodell, das mit einem niedrigen IoU-Schwellenwert wie 0,5 trainiert wurde, erzeugt in der Regel störende Erkennungen. Allerdings neigt die Erkennungsleistung dazu, sich zu verschlechtern, wenn man den IoU-Schwellenwert erhöht. Zwei Hauptfaktoren sind dafür verantwortlich: 1) Überanpassung während des Trainings aufgrund exponentiell verschwindender positiver Beispiele und 2) Diskrepanz zwischen den IoUs, für die der Detektor optimal ist, und denen der Eingabehypothesen zur Inferenzzeit. Es wird eine mehrstufige Objekterkennungsarchitektur vorgeschlagen, das Cascade R-CNN, um diese Probleme anzugehen. Diese besteht aus einer Reihe von Detektoren, die mit steigenden IoU-Schwellenwerten trainiert werden, um schrittweise selektiver gegenüber naheliegenden Falschpositiven zu sein. Die Detektoren werden stufenweise trainiert und nutzen dabei die Beobachtung, dass die Ausgabe eines Detektors eine gute Verteilung für das Training des nächsten hochwertigeren Detektors darstellt. Das nach und nach verbesserte Resampling der Hypothesen gewährleistet, dass alle Detektoren eine positive Menge von Beispielen gleicher Größe haben, was das Problem der Überanpassung reduziert. Dasselbe Kaskadenverfahren wird auch zur Inferenz angewendet, was einen besseren Übereinstimmungsgrad zwischen den Hypothesen und der Detektorensqualität jeder Stufe ermöglicht. Eine einfache Implementierung des Cascade R-CNN zeigt sich als überlegen gegenüber allen einzelnen Modellen auf dem anspruchsvollen COCO-Datensatz. Experimente belegen zudem die weitreichende Anwendbarkeit des Cascade R-CNN auf verschiedenen Detektoraufbauten und zeigen konsistente Verbesserungen unabhängig von der Stärke des Basismodells. Der Code wird unter https://github.com/zhaoweicai/cascade-rcnn veröffentlicht werden.