Flux sémantique pour une interprétation rapide et précise des scènes

Dans cet article, nous nous concentrons sur la conception d'une méthode efficace pour une interprétation rapide et précise des scènes. Une pratique courante visant à améliorer les performances consiste à obtenir des cartes de caractéristiques à haute résolution dotées d'une forte représentation sémantique. Deux stratégies sont largement utilisées — les convolutions atrous et la fusion de pyramide de caractéristiques — mais elles sont soit très coûteuses en calcul, soit peu efficaces. Inspirés par le flux optique utilisé pour l’alignement des mouvements entre cadres vidéo adjacents, nous proposons un module d’alignement par flux (Flow Alignment Module, FAM), qui apprend un « flux sémantique » entre les cartes de caractéristiques de niveaux adjacents, permettant ainsi de diffuser efficacement et efficacement les caractéristiques de haut niveau vers les caractéristiques à haute résolution. En outre, l’intégration de notre module dans une structure de pyramide de caractéristiques courante permet d’obtenir des performances supérieures à celles d’autres méthodes en temps réel, même lorsqu’elle est utilisée avec des réseaux de base légers, tels que ResNet-18. Des expériences étendues ont été menées sur plusieurs jeux de données exigeants, notamment Cityscapes, PASCAL Context, ADE20K et CamVid. En particulier, notre réseau est le premier à atteindre un mIoU de 80,4 % sur Cityscapes avec un taux de 26 FPS. Le code source est disponible à l’adresse suivante : \url{https://github.com/lxtGH/SFSegNets}.