Architecture de Pooling Spatial Atrous en Cascade pour une Segmentation Sémantique Efficace

Nous proposons une nouvelle architecture efficace pour la segmentation sémantique, basée sur une architecture d’agrégation spatiale à trous en « cascade », qui permet une augmentation notable de la précision tout en réduisant le nombre de paramètres du réseau et la consommation mémoire. L’architecture proposée, baptisée Waterfall, exploite l’efficacité du filtrage progressif propre aux architectures en cascade tout en maintenant des champs de vue multiscales comparables à ceux des configurations de pyramide spatiale. En outre, notre méthode ne repose pas sur une étape de post-traitement par champs aléatoires conditionnels (Conditional Random Fields), ce qui réduit davantage la complexité et le temps d’entraînement requis. Nous démontrons que l’approche Waterfall, combinée à un squelette ResNet, constitue une architecture robuste et efficace pour la segmentation sémantique, atteignant des résultats de pointe sur les jeux de données Pascal VOC et Cityscapes, avec une réduction significative du nombre de paramètres.