DeNet: Skalierbare Echtzeit-Objekterkennung durch gerichtete dünnbesetzte Abtastung

Wir definieren das Problem der Objekterkennung in Bildern als die Schätzung einer sehr großen, aber extrem dünnbesetzten Bounding-Box-abhängigen Wahrscheinlichkeitsverteilung. Anschließend identifizieren wir ein Schema zur Schätzung dünnbesetzter Verteilungen, nämlich Directed Sparse Sampling (DSS), und verwenden es in einem einzigen, von Anfang bis Ende auf CNN basierenden Erkennungsmodell. Diese Methodik erweitert und formalisiert vorherige Stand-der-Technik-Erkenntnismodelle mit zusätzlicher Betonung auf hohen Evaluationsraten und reduzierter manueller Ingenieursarbeit. Wir führen zwei Neuerungen ein: einen eckbasierten Region-of-Interest-Schätzer und ein dekonvolutionales CNN-Modell. Das resultierende Modell ist szenenadaptiv, benötigt keine manuell definierten Referenz-Bounding-Boxes und erzielt hochwettbewerbsfähige Ergebnisse auf MSCOCO, Pascal VOC 2007 und Pascal VOC 2012 bei Echtzeit-Evaluationsraten. Eine weitere Analyse zeigt, dass unser Modell besonders gut abschneidet, wenn feingranulare Objektlokalisation gewünscht ist. Wir argumentieren, dass dieser Vorteil aus der signifikant größeren Menge an verfügbaren Regions-of-Interest im Vergleich zu anderen Methoden stammt. Der Quellcode ist unter folgender URL verfügbar: https://github.com/lachlants/denet