WSOD2: Lernen von bottom-up und top-down Objectness-Distillation für weakly-supervised Object Detection

Wir untersuchen das schwach überwachte Objektdetektionsverfahren (Weakly-Supervised Object Detection, WSOD), das eine entscheidende Rolle bei der Verringerung menschlicher Beteiligung bei objektbasierten Annotationen spielt. Die dominierenden Ansätze integrieren Region-Proposal-Mechanismen mit konvolutionellen neuronalen Netzen (CNN). Obwohl CNN hervorragend darin sind, diskriminative lokale Merkmale zu extrahieren, bestehen weiterhin erhebliche Herausforderungen bei der Schätzung der Wahrscheinlichkeit, dass ein begrenzender Rahmen ein vollständiges Objekt enthält (d. h. die „Objectness“). In diesem Artikel stellen wir einen neuartigen WSOD-Framework mit Objectness-Distillation (bezeichnet als WSOD2) vor, indem wir ein maßgeschneidertes Trainingsverfahren für das schwach überwachte Objektdetektionsproblem entwickeln. Mehrere Regressionsziele werden speziell durch eine kombinierte Betrachtung der bottom-up (BU) und top-down (TD) Objectness aus niedrigstufigen Messungen sowie CNN-Confidenzen unter Verwendung einer adaptiven linearen Kombination bestimmt. Da die Begrenzungsrahmen-Regression das Lernen von Region-Proposals unterstützen kann, um während des Trainings Zielwerte mit hoher Objectness anzustreben, kann die tiefgehende Objectness-Repräsentation, die aus bottom-up-Evidenzen gelernt wird, schrittweise durch Optimierung in das CNN eingebettet werden. Wir untersuchen verschiedene adaptive Trainingskurven für die BU/TD-Objectness und zeigen, dass das vorgeschlagene WSOD2 state-of-the-art-Ergebnisse erzielt.