Objekterkennung durch kontrastives Lernen für schwach überwachte Objekterkennung

Schwach überwachte Objekterkennung (WSOD) ist eine Aufgabe, bei der Objekte in einem Bild mithilfe eines Modells erkannt werden, das ausschließlich auf bildbasierten Annotationen trainiert wurde. Aktuelle state-of-the-art-Modelle profitieren von selbstüberwachtem Instanz-Level-Überwachung, aber da schwache Überwachung keine Informationen über Anzahl oder Position enthält, ignoriert die am häufigsten verwendete „argmax“-Beschriftungsmethode oft viele Objektinstanzen. Um dieses Problem zu mildern, schlagen wir eine neue Mehrfachinstanz-Beschriftungsmethode vor, die als Objektdetektion bezeichnet wird. Wir führen zudem einen neuen kontrastiven Verlust unter schwacher Überwachung ein, bei dem keine Instanz-Level-Informationen für das Sampling zur Verfügung stehen, den sogenannten schwach überwachten kontrastiven Verlust (WSCL). WSCL strebt an, durch die Nutzung konsistenter Merkmale für Einbettungsvektoren derselben Klasse einen glaubwürdigen Ähnlichkeitsschwellenwert für die Objektdetektion zu erstellen. Als Ergebnis erzielen wir neue state-of-the-art-Ergebnisse auf MS-COCO 2014 und 2017 sowie PASCAL VOC 2012 und wettbewerbsfähige Ergebnisse auf PASCAL VOC 2007.