HyperAIHyperAI
il y a 17 jours

Aggrégation contextuelle en chaîne guidée par l'attention pour la segmentation sémantique

Quan Tang, Fagui Liu, Tong Zhang, Jun Jiang, Yu Zhang
Aggrégation contextuelle en chaîne guidée par l'attention pour la segmentation sémantique
Résumé

La manière dont les caractéristiques se propagent dans les réseaux entièrement convolutifs revêt une importance capitale pour capturer des contextes multi-échelles afin d’obtenir des masques de segmentation précis. Ce papier propose un nouveau paradigme hybride en série-parallèle, appelé Module d’agrégation de contexte en chaîne (Chained Context Aggregation Module, CAM), visant à diversifier la propagation des caractéristiques. Le CAM extrait des caractéristiques à différentes échelles spatiales grâce à des flux d’information en forme de ladder connectés en série, puis les fusionne selon un processus en deux étapes : une pré-fusion et une re-fusion. Le flux en série permet d’augmenter progressivement les champs réceptifs des neurones de sortie, tandis que les flux en parallèle codent des contextes liés à différentes régions. Chaque flux d’information constitue un encodeur-décodeur léger doté d’un facteur de décimation approprié, permettant ainsi de capturer efficacement les informations contextuelles. Nous intégrons par ailleurs un modèle d’attention dans le CAM afin de guider la re-fusion des caractéristiques. À partir de ces avancées, nous construisons le réseau d’agrégation de contexte en chaîne (Chained Context Aggregation Network, CANet), qui utilise un décodeur asymétrique pour restaurer avec précision les détails spatiaux des cartes de prédiction. Nous menons des expérimentations étendues sur six jeux de données exigeants : Pascal VOC 2012, Pascal Context, Cityscapes, CamVid, SUN-RGBD et GATECH. Les résultats démontrent que CANet atteint des performances de pointe par rapport aux méthodes existantes.