Dissimilaritätskoeffizientenbasierte schwach überwachte Objekterkennung

Wir betrachten das Problem der schwach überwachten Objekterkennung, bei dem die Trainingsbeispiele nur mit bildbasierten Labels annotiert sind, die die Anwesenheit oder Abwesenheit einer Objektkategorie angeben. Um die Unsicherheit in der Lagebestimmung der Objekte zu modellieren, verwenden wir ein lernzielbasiertes probabilistisches Verfahren, das auf einem Dissimilaritätskoeffizienten basiert. Das Lernziel minimiert den Unterschied zwischen einer Annotation-unabhängigen Vorhersageverteilung und einer Annotation-abhängigen bedingten Verteilung. Die Hauptrechenaufwand resultiert aus der komplexen Natur der bedingten Verteilung, die Hunderte oder Tausende von Variablen umfasst. Die Komplexität dieser bedingten Verteilung schließt eine explizite Modellierung aus. Stattdessen nutzen wir die Tatsache, dass tiefen Lernframeworks stochastische Optimierungsmethoden verwenden. Dies ermöglicht es uns, ein modernes diskretes Generativmodell einzusetzen, das konsistente Stichproben aus der bedingten Verteilung liefern kann, die mit den Annotationen übereinstimmen. Ausführliche Experimente anhand der Datensätze PASCAL VOC 2007 und 2012 belegen die Effektivität unseres vorgeschlagenen Ansatzes.