W2F: Ein schwach überwachter zu vollständig überwachter Rahmenwerk für Objekterkennung

Die schwach beschriftete Objektdetektion hat in letzter Zeit erhebliche Aufmerksamkeit erfahren, da sie keine Bounding-Box-Anmerkungen für das Training erfordert. Obwohl erhebliche Fortschritte erzielt wurden, besteht weiterhin eine erhebliche Leistungslücke zwischen schwach beschrifteter und vollständig beschrifteter Objektdetektion. Kürzlich nutzen einige Ansätze sogenannte Pseudowahrheitswerte (pseudo ground-truths), die durch einen schwach beschrifteten Detektor generiert werden, um einen vollständig beschrifteten Detektor zu trainieren. Solche Ansätze neigen dazu, die repräsentativsten Teile von Objekten zu identifizieren und pro Klasse lediglich eine einzige Wahrheitsbox zu suchen, selbst wenn mehrere Instanzen derselben Klasse in einem Bild vorhanden sind. Um diese Probleme zu überwinden, schlagen wir einen Rahmenwerk für die Überführung von schwach beschrifteter in vollständig beschriftete Detektion vor, bei dem ein schwach beschrifteter Detektor mittels Mehrfach-Instanz-Lernen (Multiple Instance Learning, MIL) implementiert wird. Anschließend präsentieren wir einen Algorithmus zur Ausgrabung von Pseudowahrheitswerten (Pseudo Ground-truth Excavation, PGE), um für jede Instanz im Bild die entsprechende Pseudowahrheitsbox zu finden. Darüber hinaus entwickeln wir einen Algorithmus zur Anpassung von Pseudowahrheitswerten (Pseudo Ground-truth Adaptation, PGA), um die durch PGE gewonnenen Pseudowahrheitswerte weiter zu verfeinern. Schließlich nutzen wir diese verbesserten Pseudowahrheitswerte, um einen vollständig beschrifteten Detektor zu trainieren. Umfassende Experimente auf den anspruchsvollen Benchmarks PASCAL VOC 2007 und 2012 belegen eindrucksvoll die Wirksamkeit unseres Ansatzes. Wir erreichen eine mAP von 52,4 % auf VOC2007 und 47,8 % auf VOC2012, was eine signifikante Verbesserung gegenüber vorherigen State-of-the-Art-Methoden darstellt.