Deformable Part Models sind Convolutional Neural Networks

Deformable Part Models (DPMs) und Convolutional Neural Networks (CNNs) sind zwei weit verbreitete Werkzeuge für die visuelle Erkennung. Sie werden in der Regel als unterschiedliche Ansätze betrachtet: DPMs sind graphische Modelle (Markov-Zufallsfelder), während CNNs als "Black-Box"-Nichtlinearklassifizierer fungieren. In dieser Arbeit zeigen wir, dass ein DPM als CNN formuliert werden kann, was eine neue Synthese der beiden Ideen ermöglicht. Unsere Konstruktion umfasst das Entfalten des DPM-Schließungsverfahrens und die Zuordnung jedes Schritts zu einer äquivalenten (und manchmal neuen) CNN-Schicht. Aus dieser Perspektive wird es natürlich, den standardmäßigen Bildmerkmalen, die in DPMs verwendet werden, einen gelernten Merkmalsextraktor zu ersetzen. Das resultierende Modell nennen wir DeepPyramid DPM und validieren es experimentell am PASCAL VOC-Datensatz. DeepPyramid DPM übertrifft signifikant DPMs, die auf Merkmalen basieren, die aus Histogrammen orientierter Gradienten (HOG) abgeleitet sind, und verbessert leicht die Leistung einer vergleichbaren Version des kürzlich eingeführten R-CNN-Erkennungssystems, wobei es gleichzeitig um ein Ordnen von Größen schneller läuft.