ContextLocNet: Kontextbewusste Tiefennetzmodelle für schwach überwachte Lokalisierung

Wir streben danach, Objekte in Bildern ausschließlich unter Verwendung von bildbasierten Supervisionsdaten zu lokalisieren. Frühere Ansätze für dieses Problem konzentrierten sich hauptsächlich auf diskriminative Objektbereiche und scheiterten oft daran, präzise Objektrandlinien zu ermitteln. Wir begegnen diesem Problem durch die Einführung zweier kontextbewusster Leitmodelle: additiver und kontrastiver Modelle, die ihre umliegenden Kontextbereiche nutzen, um die Lokalisierung zu verbessern. Das additive Modell fördert die Unterstützung des vorhergesagten Objektbereichs durch seinen umliegenden Kontextbereich. Das kontrastive Modell fördert die Hervorstechung des vorhergesagten Objektbereichs aus seinem umliegenden Kontextbereich. Unser Ansatz profitiert von den jüngsten Erfolgen der Faltungss neuronalen Netze (Convolutional Neural Networks) im Bereich der Objekterkennung und erweitert Fast R-CNN auf schwach überwachte Objektlokalisierung. Eine umfangreiche experimentelle Bewertung anhand der Benchmarks PASCAL VOC 2007 und 2012 zeigt, dass unser kontextbewusster Ansatz die schwach überwachte Lokalisierung und Detektion signifikant verbessert.