CACFNet : Réseau de fusion en cascade à attention intermodale pour l'interprétation des scènes urbaines RGB-T
L'analyse de scènes urbaines couleur-thermique (RGB-T) a récemment suscité un intérêt croissant. Toutefois, la plupart des approches existantes pour l'analyse de scènes urbaines RGB-T ne explorent pas en profondeur la complémentarité des informations entre les caractéristiques RGB-T. Dans cette étude, nous proposons un réseau de fusion en cascade à attention intermodale (CACFNet), conçu pour exploiter pleinement les interactions intermodales. Dans notre architecture, un module de fusion à attention intermodale extrait les informations complémentaires provenant des deux modalités. Ensuite, un module de fusion en cascade décode les caractéristiques multi-niveaux selon une approche ascendante-descendante. Étant donné que chaque pixel est étiqueté selon la catégorie de la région à laquelle il appartient, nous introduisons un module basé sur les régions afin d’explorer les relations entre pixel et région. En outre, contrairement aux méthodes antérieures qui n’utilisent qu’une perte d’entropie croisée pour pénaliser les prédictions par pixel, nous proposons une perte supplémentaire permettant d’apprendre les relations entre pixels. Des expériences étendues sur deux jeux de données démontrent que le CACFNet proposé atteint des performances de pointe dans l’analyse de scènes urbaines RGB-T.