
Nous proposons une nouvelle structure de réseau profond appelée « Network In Network » (NIN) pour améliorer la capacité de discrimination du modèle pour les patchs locaux au sein du champ récepteur. La couche de convolution conventionnelle utilise des filtres linéaires suivis d'une fonction d'activation non linéaire pour parcourir l'entrée. À la place, nous construisons des micro-réseaux neuronaux dotés de structures plus complexes afin d'abstraire les données au sein du champ récepteur. Nous instancions ces micro-réseaux neuronaux avec un perceptron multicouche, qui est un puissant approximateur de fonctions. Les cartes de caractéristiques sont obtenues en faisant glisser les micro-réseaux sur l'entrée, de manière similaire aux CNN ; elles sont ensuite transmises à la couche suivante. Un réseau profond NIN peut être mis en œuvre en empilant plusieurs structures décrites ci-dessus. Grâce à une modélisation locale améliorée par le biais des micro-réseaux, nous sommes en mesure d'utiliser un regroupement par moyenne globale sur les cartes de caractéristiques dans la couche de classification, ce qui est plus facile à interpréter et moins sujet au surapprentissage que les couches entièrement connectées traditionnelles. Nous avons démontré des performances de classification d'avant-garde avec NIN sur les jeux de données CIFAR-10 et CIFAR-100, ainsi que des performances raisonnables sur les jeux de données SVHN et MNIST.