Extension des réseaux résiduels larges pour la segmentation panoptique

Les réseaux de convolution résiduels élargis (Wide-ResNets), une variante peu profonde mais large des réseaux résiduels (ResNets) obtenue en empilant un petit nombre de blocs résiduels à grande taille de canaux, ont fait preuve d'une performance exceptionnelle sur plusieurs tâches de prédiction dense. Toutefois, depuis leur introduction, l'architecture Wide-ResNet a peu évolué au fil des années. Dans ce travail, nous revisitons la conception architecturale de Wide-ResNet pour la tâche récente et exigeante de segmentation panoptique, qui vise à unifier la segmentation sémantique et la segmentation d'instances. Un modèle de référence est obtenu en intégrant de manière simple et efficace les mécanismes de Squeeze-and-Excitation et de convolution à trous interchangeable aux Wide-ResNets. Sa capacité réseau est ensuite ajustée de manière dynamique en modifiant la largeur (c’est-à-dire la taille des canaux) et la profondeur (c’est-à-dire le nombre de couches), donnant ainsi naissance à une famille de réseaux appelés SWideRNets (abréviation de Scaling Wide Residual Networks). Nous démontrons que cette approche de mise à l’échelle simple, combinée à une recherche en grille, permet d’identifier plusieurs SWideRNets capables d’atteindre des performances significativement améliorées par rapport à l’état de l’art sur les jeux de données de segmentation panoptique, tant dans le régime de modèles rapides que dans celui des modèles puissants.