vor 2 Monaten

Eine Analyse der Skaleninvarianz in der Objekterkennung - SNIP

Bharat Singh; Larry S. Davis

Abstract

Eine Analyse verschiedener Techniken zur Erkennung und Detektion von Objekten unter extremen Skalenvariationen wird vorgestellt. Die skalenabhängige und skaleninvariante Gestaltung von Detektoren wird durch das Training mit unterschiedlichen Konfigurationen der Eingangsdaten verglichen. Durch die Bewertung der Leistung verschiedener Netzarchitekturen bei der Klassifizierung kleiner Objekte auf ImageNet zeigen wir, dass CNNs nicht robust gegenüber Änderungen der Skala sind. Auf Basis dieser Analyse schlagen wir vor, Detektoren auf den gleichen Skalen eines Bildpyramiden zu trainieren und zu testen. Da kleine und große Objekte jeweils auf kleineren und größeren Skalen schwierig zu erkennen sind, präsentieren wir ein neues Trainingsverfahren namens Scale Normalization for Image Pyramids (SNIP), das die Gradienten von Objekten unterschiedlicher Größen selektiv zurückpropagiert, abhängig von der Bildskala. Auf dem COCO-Datensatz erreicht unser einzelnes Modell eine Genauigkeit von 45,7 %, während ein Ensemble aus 3 Netzen einen mAP von 48,3 % erzielt. Wir verwenden standardmäßig ImageNet-1000 vortrainierte Modelle und trainieren nur mit Bounding-Box-Supervision. Unser Einreichung gewann den Best Student Entry im COCO 2017 Challenge. Der Code wird unter \url{http://bit.ly/2yXVg4c} veröffentlicht werden.