Raum pyramidales Pooling in tiefen Faltungsnetzen für visuelle Erkennung

Bestehende tiefe Faltungsneuronale Netze (CNNs) erfordern ein Bild der festen Größe (z.B. 224x224) als Eingabe. Diese Anforderung ist "künstlich" und kann die Erkennungsgenauigkeit für Bilder oder Teilbilder beliebiger Größe/Skalierung reduzieren. In dieser Arbeit versehen wir die Netze mit einer weiteren Pooling-Strategie, dem "räumlichen Pyramiden-Pooling", um das obige Anforderung zu beseitigen. Die neue Netzstruktur, SPP-Net genannt, kann eine feste Längendarstellung unabhängig von der Bildgröße/Skalierung generieren. Das Pyramiden-Pooling ist auch robust gegenüber Objektverformungen. Mit diesen Vorteilen sollte das SPP-Net im Allgemeinen alle bildbasierten Klassifikationsmethoden, die auf CNNs basieren, verbessern. Am ImageNet 2012 Datensatz zeigen wir, dass das SPP-Net die Genauigkeit verschiedener CNN-Architekturen erhöht, ungeachtet ihrer unterschiedlichen Designs. Auf den Pascal VOC 2007 und Caltech101 Datensätzen erreicht das SPP-Net erstklassige Klassifikationsergebnisse unter Verwendung einer einzelnen vollständigen Bildrepräsentation und ohne Feinabstimmung.Die Leistungsfähigkeit des SPP-Nets ist auch bei der Objekterkennung bemerkenswert. Unter Verwendung des SPP-Nets berechnen wir die Merkmalskarten nur einmal aus dem gesamten Bild und poolen dann die Merkmale in beliebigen Regionen (Teilbildern), um feste Längendarstellungen für das Training der Detektoren zu generieren. Diese Methode vermeidet es, die faltungsbezogenen Merkmale wiederholt zu berechnen. Bei der Verarbeitung von Testbildern ist unsere Methode 24-102-mal schneller als die R-CNN-Methode und erreicht dabei bessere oder vergleichbare Genauigkeiten auf Pascal VOC 2007.Im ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2014 rangierten unsere Methoden unter allen 38 Teams auf Platz #2 bei der Objekterkennung und Platz #3 bei der Bildklassifizierung. Dieses Manuskript stellt außerdem die Verbesserungen vor, die für diesen Wettbewerb vorgenommen wurden.