HyperAIHyperAI
il y a 2 mois

Réseaux de neurones convolutifs bilinéaires pour la reconnaissance visuelle fine

Tsung-Yu Lin; Aruni RoyChowdhury; Subhransu Maji
Réseaux de neurones convolutifs bilinéaires pour la reconnaissance visuelle fine
Résumé

Nous présentons une architecture simple et efficace pour la reconnaissance visuelle fine-grainée appelée Réseaux Neuronaux Convolutifs Bilinéaires (B-CNNs). Ces réseaux représentent une image comme un produit externe regroupé de caractéristiques issues de deux CNNs et capturent les interactions de caractéristiques localisées d'une manière invariante à la translation. Les B-CNNs appartiennent à la classe des représentations texturales sans ordre, mais contrairement aux travaux antérieurs, ils peuvent être formés de manière end-to-end. Notre modèle le plus précis obtient des taux de précision par image respectivement de 84,1 %, 79,4 %, 86,9 % et 91,3 % sur les ensembles de données Caltech-UCSD birds [67], NABirds [64], FGVC aircraft [42] et Stanford cars [33], et fonctionne à 30 images par seconde sur une GPU NVIDIA Titan X. Nous présentons ensuite une analyse systématique de ces réseaux et montrons que (1) les caractéristiques bilinéaires sont très redondantes et peuvent être réduites d'un facteur dix en taille sans perte significative de précision, (2) elles sont également efficaces pour d'autres tâches de classification d'images telles que la reconnaissance de textures et de scènes, et (3) elles peuvent être formées à partir de zéro sur l'ensemble de données ImageNet en offrant des améliorations cohérentes par rapport à l'architecture de base. Enfin, nous présentons des visualisations de ces modèles sur divers ensembles de données en utilisant les activations maximales des unités neuronales et des techniques d'inversion basées sur le gradient. Le code source du système complet est disponible à l'adresse http://vis-www.cs.umass.edu/bcnn.