CSFNet : Un Réseau de Fusion par Similarité Cosinus pour la Segmentation Sémantique en Temps Réel des Scènes de Conduite RGB-X

La segmentation sémantique, en tant que composante cruciale de l'interprétation visuelle complexe, joue un rôle fondamental dans les systèmes de vision des véhicules autonomes. Des études récentes ont considérablement amélioré la précision de la segmentation sémantique en exploitant des informations complémentaires et en développant des méthodes multimodales. Malgré ces gains en précision, les méthodes de segmentation sémantique multimodale souffrent d'une complexité computationnelle élevée et d'une vitesse d'inférence faible. Par conséquent, il est un défi majeur d'implémenter ces méthodes dans les applications de conduite. Pour résoudre ce problème, nous proposons le réseau de fusion par similarité cosinus (Cosine Similarity Fusion Network, CSFNet) comme modèle de segmentation sémantique RGB-X en temps réel. Plus précisément, nous concevons un module de fusion par attention basée sur la similarité cosinus (Cosine Similarity Attention Fusion Module, CS-AFM) qui corrige et fusionne efficacement les caractéristiques de deux modalités. Le module CS-AFM utilise la similarité intermodale pour atteindre une forte capacité de généralisation. En renforçant la fusion des caractéristiques intermodales aux niveaux inférieurs, le CS-AFM ouvre la voie à l'utilisation d'un réseau à branche unique aux niveaux supérieurs. Nous utilisons donc des architectures à double et simple branche dans un encodeur, ainsi qu'un module contextuel efficace et un décodeur léger pour des prédictions rapides et précises. Pour vérifier l'efficacité du CSFNet, nous utilisons les jeux de données Cityscapes, MFNet et ZJU pour la segmentation sémantique RGB-D/T/P. Selon les résultats, le CSFNet offre une précision compétitive avec les méthodes les plus avancées tout en étant à la pointe en termes de vitesse parmi les modèles de segmentation sémantique multimodale. Il atteint également une haute efficacité grâce à son faible nombre de paramètres et sa faible complexité computationnelle. Le code source du CSFNet sera disponible sur https://github.com/Danial-Qashqai/CSFNet.