Les Modèles de Parties Déformables sont des Réseaux Neuronaux Convolutifs.

Les modèles de parties déformables (DPMs) et les réseaux neuronaux convolutifs (CNNs) sont deux outils largement utilisés pour la reconnaissance visuelle. Ils sont généralement considérés comme des approches distinctes : les DPMs sont des modèles graphiques (champs aléatoires de Markov), tandis que les CNNs sont des classifieurs non-linéaires « boîtes noires ». Dans cet article, nous montrons qu'un DPM peut être formulé comme un CNN, offrant ainsi une nouvelle synthèse de ces deux concepts. Notre construction consiste à dérouler l'algorithme d'inférence DPM et à mapper chaque étape à une couche CNN équivalente (et parfois novatrice). De cette perspective, il devient naturel de remplacer les caractéristiques d'image standards utilisées dans les DPM par un extracteur de caractéristiques appris. Nous appelons le modèle résultant DeepPyramid DPM et nous le validerons expérimentalement sur PASCAL VOC. Le DeepPyramid DPM surpasse significativement les DPMs basés sur les histogrammes d'orientations de gradients (HOG) et légèrement surpasses une version comparable du système de détection R-CNN récemment introduit, tout en fonctionnant plus d'un ordre de grandeur plus rapidement.