Connexions rapides du décodeur dense pour une segmentation sémantique à passage unique

Nous proposons une nouvelle architecture profonde, end-to-end entraînable, de type encodeur-décodeur pour la segmentation sémantique en une seule passe. Notre approche repose sur une architecture en cascade munie de connexions sautées à niveau de caractéristiques sur de longues distances. L'encodeur intègre la structure des blocs résiduels de ResNeXt et adopte une stratégie consistant à répéter un bloc de construction qui agrège un ensemble de transformations possédant la même topologie. Le décodeur présente une architecture novatrice, composée de blocs qui (i) captent les informations contextuelles, (ii) génèrent des caractéristiques sémantiques, et (iii) permettent la fusion entre différentes résolutions de sortie. De manière cruciale, nous introduisons des connexions rapides denses au niveau du décodeur, permettant à chaque bloc de décodeur d'accéder aux cartes de caractéristiques sémantiques issues de tous les niveaux précédents du décodeur, c’est-à-dire de toutes les cartes de caractéristiques de niveaux supérieurs. Ces connexions denses favorisent une propagation efficace de l'information d’un bloc de décodeur à un autre, ainsi qu’une fusion de caractéristiques multi-niveaux, ce qui améliore significativement la précision. En outre, ces connexions permettent à notre méthode d’atteindre des performances de pointe sur plusieurs jeux de données exigeants, sans nécessiter le traitement coûteux en temps de moyennage multi-échelle adopté dans les travaux antérieurs.