Apprentissage d'une banque de filtres discriminative au sein d'un CNN pour la reconnaissance fine-grainée

Comparé aux cadres multistades antérieurs utilisant des caractéristiques CNN, les approches profondes récentes de bout en bout pour la reconnaissance fine-grainée améliorent essentiellement la capacité d'apprentissage de niveau intermédiaire des CNN. Les approches précédentes atteignaient cet objectif en introduisant un réseau auxiliaire pour intégrer des informations de localisation dans le réseau principal de classification, ou une méthode sophistiquée d'encodage de caractéristiques pour capturer des statistiques de caractéristiques d'ordre supérieur. Nous montrons que l'apprentissage de représentations de niveau intermédiaire peut être amélioré au sein du cadre CNN, en apprenant une banque de filtres de convolution qui capture des patchs discriminants spécifiques à chaque classe sans annotations supplémentaires de parties ou de boîtes englobantes. Une telle banque de filtres est bien structurée, correctement initialisée et apprise discriminativement grâce à une architecture multi-flux asymétrique novatrice avec supervision des filtres de convolution et une initialisation non aléatoire des couches. Les résultats expérimentaux montrent que notre approche atteint l'état de l'art sur trois jeux de données publics pour la reconnaissance fine-grainée (CUB-200-2011, Stanford Cars et FGVC-Aircraft). Des études d'ablation et des visualisations sont fournies pour comprendre notre approche.