Rekursiv verfeinertes R-CNN: Instanzsegmentierung mit selbstgesteuerter Rebalancierung von RoI

Innerhalb des Bereichs der Instanzsegmentierung basieren derzeit die meisten fortschrittlichsten Deep-Learning-Netzwerke auf Kaskadenarchitekturen, bei denen mehrere Objektdetektoren sequenziell trainiert werden und dabei in jedem Schritt die Ground-Truth erneut abtasten. Dies bietet eine Lösung für das Problem der exponentiell abnehmenden positiven Stichproben. Gleichzeitig führt dies jedoch zu einer Erhöhung der Netzwerkkomplexität hinsichtlich der Anzahl der Parameter. Um dieses Problem anzugehen, schlagen wir R^3-CNN (Recursively Refined R-CNN) vor, das Doppelungen vermeidet, indem es eine Schleifenmechanik einführt. Gleichzeitig erreicht es eine Qualitätssteigerung durch eine rekursive Abtastungstechnik, bei der in jeder Iteration eine spezifische IoU-Qualität verwendet wird, um letztlich das gesamte Spektrum positiver Beispiele gleichmäßig abzudecken. Unsere Experimente zeigen, dass die spezifische Kodierung der Schleifenmechanik in den Gewichten eine Nutzung während der Inferenz erforderlich macht. Die R^3-CNN-Architektur übertrifft das kürzlich vorgeschlagene HTC-Modell, während gleichzeitig die Anzahl der Parameter signifikant reduziert wird. Experimente am COCO minival 2017-Datensatz zeigen eine Leistungssteigerung unabhängig vom verwendeten Basismodell. Der Quellcode ist online unter https://github.com/IMPLabUniPr/mmdetection/tree/r3_cnn verfügbar.