Mélange équilibré de SuperNets pour l'apprentissage de l'architecture de pooling CNN

Les couches de downsampling, telles que le pooling et les convolutions à pas, constituent des composants essentiels de l'architecture des réseaux de neurones convolutifs, déterminant à la fois le niveau de granularité ou d'échelle de l'analyse des caractéristiques d'image ainsi que la taille du champ réceptif d'une couche donnée. Pour mieux comprendre ce problème, nous analysons les performances de modèles entraînés indépendamment avec différentes configurations de pooling sur CIFAR10, en utilisant un réseau ResNet20, et montrons que la position des couches de downsampling peut fortement influencer les performances du réseau, les configurations prédéfinies de downsampling n'étant pas optimales. La recherche d'architecture de réseau (NAS) pourrait être employée pour optimiser les configurations de downsampling en tant qu'hyperparamètre. Toutefois, nous constatons que les approches classiques de NAS à une seule phase basées sur un unique SuperNet ne sont pas efficaces pour ce problème. Nous arguons que cela s'explique par le fait qu'un SuperNet entraîné pour trouver la configuration optimale de pooling partage entièrement ses paramètres entre toutes les configurations de pooling. Cela rend son entraînement difficile, car l'apprentissage de certaines configurations peut nuire aux performances d'autres. Par conséquent, nous proposons une combinaison équilibrée de SuperNets qui associe automatiquement les différentes configurations de pooling à des modèles de poids distincts, réduisant ainsi le partage de poids et les influences mutuelles entre configurations au sein des paramètres du SuperNet. Nous évaluons notre approche sur CIFAR10, CIFAR100 ainsi que sur Food101, et montrons que, dans tous les cas, notre modèle surpasse les autres approches et améliore significativement les configurations de pooling par défaut.