Objektbewusstes Instanzlabeling für schwach überwachte Objekterkennung

Schwach überwachte Objekterkennung (WSOD), bei der ein Detektor nur mit bildbasierten Annotationen trainiert wird, erlangt zunehmend an Bedeutung. Als Methode zur Erzielung eines leistungsfähigen Detektors werden der Detektor und die Instanzlabels iterativ aktualisiert. In dieser Studie konzentrieren wir uns auf das Problem der Instanzlabeling, um eine effizientere iterative Aktualisierung zu ermöglichen. Dieses Problem besteht darin, welche Labels jeder Region basierend auf dem letzten Lokalisierungsergebnis zugeordnet werden sollten. Anstatt einfach die Region mit der höchsten Bewertung und ihre stark überlappenden Bereiche als positiv und alle anderen als negativ zu kennzeichnen, schlagen wir folgende effektivere Methoden für die Instanzlabeling vor:Erstens, um das Problem zu lösen, dass Regionen, die nur Teile des Objekts abdecken, oft als positiv gekennzeichnet werden, identifizieren wir Regionen, die das gesamte Objekt abdecken, indem wir den Kontextklassifikationsverlust (context classification loss) berücksichtigen.Zweitens, unter Berücksichtigung der Situation, dass andere im Bild enthaltene Objekte als negativ gekennzeichnet werden können, legen wir räumliche Einschränkungen für Regionen fest, die als negativ gelabelt sind.Mit diesen Instanzlabeling-Methoden trainieren wir den Detektor auf den Datensätzen PASCAL VOC 2007 und 2012 und erzielen signifikant verbesserte Ergebnisse im Vergleich zu anderen Stand-of-the-Art-Ansätzen.