il y a 15 jours

Dévoiler le potentiel du Segment Anything Model 2 pour la segmentation sémantique RGB-Thermal avec une guidance linguistique

Zhao, Jiayi, Teng, Fei, Luo, Kai, Zhao, Guoqiang, Li, Zhiyong, Zheng, Xu, Yang, Kailun

Résumé

La capacité de perception des systèmes robotiques repose sur la richesse des jeux de données. Bien que le Segment Anything Model 2 (SAM2), entraîné sur de grands jeux de données, démontre un fort potentiel de perception dans les tâches de perception, son paradigme d'entraînement intrinsèque le rend inadapté aux tâches RGB-T. Pour relever ces défis, nous proposons SHIFNet, un nouveau paradigme hybride d’interaction piloté par SAM2, qui exploite pleinement le potentiel de SAM2 grâce à une guidance linguistique pour une perception RGB-Thermique efficace. Notre cadre se compose de deux composants clés : (1) un module de fusion cross-modale consciente du sens (SACF), qui équilibre dynamiquement les contributions des modalités par apprentissage d’affinité guidé par le texte, surmontant ainsi le biais intrinsèque de SAM2 envers les images RGB ; (2) un décodeur de prompting hétérogène (HPD), qui renforce l’information sémantique globale grâce à un module d’amélioration sémantique, puis la combine avec des embeddings de catégorie afin d’amplifier la cohérence sémantique cross-modale. Avec 32,27 millions de paramètres entraînables, SHIFNet atteint des performances de segmentation de pointe sur des benchmarks publics, obtenant respectivement 89,8 % sur PST900 et 67,8 % sur FMB. Ce cadre facilite l’adaptation des grands modèles pré-entraînés aux tâches de segmentation RGB-T, atténuant efficacement les coûts élevés liés à la collecte de données tout en dotant les systèmes robotiques d’une capacité de perception complète. Le code source sera rendu disponible publiquement à l’adresse suivante : https://github.com/iAsakiT3T/SHIFNet.