Auto-DeepLab : Recherche hiérarchique de l'architecture neuronale pour la segmentation sémantique d'images

Récemment, la recherche d'architecture neuronale (Neural Architecture Search, NAS) a réussi à identifier des architectures de réseaux neuronaux qui surpassent celles conçues par l'homme pour la classification d'images à grande échelle. Dans cet article, nous étudions le NAS pour la segmentation sémantique d'images. Les travaux existants se concentrent souvent sur la recherche de structures cellulaires répétables, tout en concevant manuellement la structure externe du réseau qui contrôle les changements de résolution spatiale. Ce choix simplifie l'espace de recherche, mais devient de plus en plus problématique pour la prédiction d'images denses, qui présente beaucoup plus de variations architecturales au niveau du réseau. Par conséquent, nous proposons de rechercher la structure au niveau du réseau en plus de celle au niveau cellulaire, ce qui forme un espace de recherche d'architecture hiérarchique. Nous présentons un espace de recherche au niveau du réseau qui inclut de nombreux designs populaires et développons une formulation permettant une recherche d'architecture basée sur les gradients efficace (3 jours sur des images Cityscapes avec 3 P100 GPU). Nous démontrons l'efficacité de notre méthode proposée sur les jeux de données difficiles Cityscapes, PASCAL VOC 2012 et ADE20K. Auto-DeepLab, notre architecture spécifiquement recherchée pour la segmentation sémantique d'images, atteint des performances sans précédent sans aucune préformation sur ImageNet.