SERNet-Former : Segmentation Sémantique par un Réseau Résiduel Efficace avec des Portes d'Amplification de l'Attention et des Réseaux de Fusion de l'Attention

Améliorer l'efficacité des méthodes de pointe en segmentation sémantique nécessite de surmonter le coût computationnel croissant ainsi que des problèmes tels que la fusion de l'information sémantique provenant des contextes globaux et locaux. Partant du succès récent et des problèmes rencontrés par les réseaux neuronaux convolutifs (CNN) dans la segmentation sémantique, cette recherche propose une architecture encodeur-décodeur avec un réseau résiduel unique et efficace, l'Efficient-ResNet. Des portes d'amplification de l'attention (AbGs) et des modules d'amplification de l'attention (AbMs) sont déployés dans le but de fusionner l'information sémantique équivariante et basée sur les caractéristiques avec des tailles équivalentes à celles de la sortie du contexte global du réseau résiduel efficace dans l'encodeur. Respectivement, le réseau décodeur est développé avec des réseaux d'amplification de l'attention supplémentaires (AfNs), inspirés par AbM. Les AfNs sont conçus pour améliorer l'efficacité dans la conversion un-à-un de l'information sémantique en ajoutant des couches de convolution supplémentaires dans la partie décodeur. Notre réseau est testé sur les jeux de données difficiles CamVid et Cityscapes, et les méthodes proposées montrent des améliorations significatives sur les réseaux résiduels. Selon nos connaissances, le réseau développé, SERNet-Former, obtient des résultats de pointe (84,62 % IoU moyen) sur le jeu de données CamVid et des résultats difficiles (87,35 % IoU moyen) sur le jeu de données de validation Cityscapes.