WSOD mit PSNet und Box-Regression

Die Aufgabe des weakly supervised object detection (WSOD) nutzt lediglich bildbezogene Annotationen, um ein Objektdetektionsmodell zu trainieren. Da WSOD keine zeitaufwändigen Instanz-level-Annotationen erfordert, hat diese Aufgabe zunehmend an Aufmerksamkeit gewonnen. Bisherige Ansätze im Bereich des weakly supervised object detection aktualisieren iterativ Detektoren und Pseudolabels oder setzen maskenbasierte Verfahren aufgrund von Merkmalen ein. Die meisten dieser Methoden generieren jedoch keine vollständigen und genauen Vorschläge, sondern oft nur die diskriminativsten Teile eines Objekts oder zu viele Hintergrundbereiche. Um dieses Problem zu lösen, integrieren wir einen Box-Regression-Modul in das Netzwerk für weakly supervised object detection und schlagen ein Proposal Scoring Network (PSNet) vor, das diesen Modul überwacht. Der Box-Regression-Modul passt die Vorschläge an, um die IoU zwischen Vorschlag und Ground Truth zu verbessern. Das PSNet bewertet die von dem Box-Regression-Netzwerk ausgegebenen Vorschläge und nutzt diese Bewertungen, um den Box-Regression-Modul weiter zu verfeinern. Zudem nutzen wir den PRS-Algorithmus, um präzisere Pseudolabels zu generieren, die dann zur Ausbildung des Box-Regression-Moduls herangezogen werden. Mit diesen Methoden trainieren wir den Detektor auf den Datensätzen PASCAL VOC 2007 und 2012 und erzielen signifikant verbesserte Ergebnisse.