C-MIL: Fortsetzung des Multi-Instance-Learnings für schwach überwachte Objekterkennung

Die schwach überwachte Objekterkennung (WSOD) ist eine herausfordernde Aufgabe, wenn sie mit der Kategorieüberwachung von Bildern versehen ist, aber gleichzeitig die Positionen und Detektoren von Objekten lernen muss. Viele Ansätze zur schwachen Überwachung verwenden das Multiple-Instance-Lernen (MIL) und haben nicht-konvexe Verlustfunktionen, die während des Trainings dazu neigen, in lokale Minima (falsche Lokalisierung von Objektteilen) zu geraten und den vollen Umfang der Objekte zu verpassen. In dieser Arbeit führen wir eine Fortsetzungsoptimierungsmethode in das MIL ein und schaffen so das kontinuierliche Multiple-Instance-Lernen (C-MIL), mit dem Ziel, das Problem der Nicht-Konvexität auf systematische Weise zu lindern. Wir unterteilen die Instanzen in räumlich verwandte und klassenbezogene Teilmengen und approximieren die ursprüngliche Verlustfunktion durch eine Reihe glatter Verlustfunktionen, die innerhalb dieser Teilmengen definiert sind. Die Optimierung glatter Verlustfunktionen verhindert, dass das Training vorzeitig in lokale Minima fällt, und erleichtert die Entdeckung stabiler semantischer Extremalbereiche (SSERs) [Stable Semantic Extremal Regions], die den vollen Umfang der Objekte anzeigen. Auf den Datensätzen PASCAL VOC 2007 und 2012 verbessert C-MIL den Stand der Technik bei schwach überwachter Objekterkennung und schwach überwachter Objektlokalisation erheblich.