PCL: Proposal Cluster Learning für schwach überwachte Objekterkennung

Schwach überwachte Objekterkennung (WSOD), die nur auf bildbasierten Annotationen trainierte Objekterkennungsmodelle verwendet, gewinnt zunehmend an Bedeutung im Bereich der Objekterkennung. In dieser Arbeit schlagen wir ein neues tiefes Netzwerk für WSOD vor. Im Gegensatz zu früheren Netzwerken, die das Problem der Objekterkennung durch Multiple-Instance-Lernen (MIL) in ein Bildklassifizierungsproblem umwandeln, generiert unsere Strategie Antragscluster (proposal clusters), um verfeinerte Instanzklassifizierer durch einen iterativen Prozess zu lernen. Die Anträge innerhalb desselben Clusters sind räumlich benachbart und mit demselben Objekt verbunden. Dies verhindert, dass das Netzwerk sich zu sehr auf Teile von Objekten statt auf ganze Objekte konzentriert. Zunächst zeigen wir, dass Instanzen direkt basierend auf Antragsclustern als Objekt- oder Hintergrundlabels klassifiziert werden können, um die Instanzklassifizierung zu verbessern. Danach demonstrieren wir, dass die Behandlung jedes Clusters als eine kleine neue Bag weniger Ambiguitäten als die direkte Zuweisung von Labels aufweist. Die iterative Verfeinerung der Instanzklassifizierer wird online unter Verwendung mehrerer Ströme in Faltungsneuronalen Netzen implementiert, wobei der erste ein MIL-Netzwerk ist und die anderen durch das vorherige für die Verfeinerung der Instanzklassifizierer überwacht werden. Experimente wurden anhand der Benchmarks PASCAL VOC, ImageNet-Detektion und MS-COCO für WSOD durchgeführt. Die Ergebnisse zeigen, dass unsere Methode den bisherigen Stand der Technik erheblich übertreffen kann.