Objekt-Instanz-Mining für schwach überwachte Objektdetektion

Schwach beschriftete Objektdetektion (Weakly Supervised Object Detection, WSOD) unter Verwendung lediglich von Bildebenen-Annotationen hat in den letzten Jahren zunehmend Aufmerksamkeit erlangt. Bestehende Ansätze, die mehrfache Instanzlernverfahren (Multiple Instance Learning, MIL) nutzen, neigen dazu, in lokale Optima zu geraten, da diese Mechanismen tendenziell aus den diskriminativsten Objekten einer Kategorie pro Bild lernen. Dadurch leiden diese Methoden unter verpassten Objektinstanzen, was die Leistungsfähigkeit der WSOD beeinträchtigt. Um dieses Problem zu bewältigen, führt dieser Artikel einen end-to-end-Objektinstanz-Mining-(OIM-)Rahmen für schwach überwachte Objektdetektion ein. Der OIM-Ansatz versucht, alle möglichen Objektinstanzen innerhalb jedes Bildes zu detektieren, indem er Informationsweiterleitung über räumliche und appearancesbasierte Graphen einsetzt, ohne zusätzliche Annotationen zu benötigen. Im iterativen Lernprozess können schrittweise auch weniger diskriminative Objektinstanzen derselben Klasse erkannt und für das Training genutzt werden. Zudem wird eine neuartige Objektinstanz-Neugewichtungslösung (object instance reweighted loss) entworfen, um einen größeren Anteil jeder Objektinstanz zu lernen und so die Gesamtleistung weiter zu steigern. Die experimentellen Ergebnisse auf zwei öffentlich verfügbaren Datensätzen, VOC 2007 und VOC 2012, belegen die Wirksamkeit des vorgeschlagenen Ansatzes.