Weniger ist mehr: Bildsegmentierungsbasierte schwach überwachte Objektdetektion mit partieller Aggregation

Wir betrachten die Behandlung der zentralen Ausfälle in schwach überwachten Objektdetektoren. Da die meisten Ansätze zur schwach überwachten Objektdetektion auf vorab generierten Vorschlägen basieren, weisen sie häufig zwei Arten von Falschdetektionen auf: (i) die Gruppierung mehrerer Objektinstanzen in einer einzigen Bounding Box und (ii) die Fokussierung nur auf Teile eines Objekts anstelle des gesamten Objekts. Wir schlagen einen Bildsegmentierungsansatz vor, um die korrekte Erkennung einzelner Instanzen zu unterstützen. Die Eingabebilder werden zunächst anhand der Überlappung der Vorschläge in mehrere Teilbilder segmentiert, um die Gruppierung von Objekten zu entkoppeln. Anschließend werden die Teilbilder in einem Batch in ein convolutionales Netzwerk eingespeist, um einen Objektdetektor zu trainieren. Innerhalb jedes Teilbildes wird eine partielle Aggregationsstrategie angewendet, um dynamisch einen Teil der Vorschlags-Level-Scores auszuwählen, um die Ausgabe auf Teilbild-Ebene zu generieren. Dies regularisiert das Modell, um Kontextwissen über die Objektinhalte zu erlernen. Schließlich werden die Ausgaben der Teilbilder zusammengefasst, um die Modellvorhersage zu erzeugen. Die vorgeschlagene Idee wird mit einem VGG-D-Backbone implementiert, um mit jüngsten state-of-the-art-Methoden zur schwach überwachten Objektdetektion vergleichbar zu sein. Umfangreiche Experimente auf den PASCAL VOC-Datensätzen belegen die Überlegenheit unseres Designs. Das vorgeschlagene Modell erreicht bessere Ergebnisse als andere Ansätze bei der Detektion, Lokalisierung und Klassifikation.