Dévoiler le potentiel du Segment Anything Model 2 pour la segmentation sémantique RGB-Thermal avec une guidance linguistique

La capacité de perception des systèmes robotiques repose sur la richesse des jeux de données. Bien que le Segment Anything Model 2 (SAM2), entraîné sur de grands jeux de données, démontre un fort potentiel de perception dans les tâches de perception, son paradigme d'entraînement intrinsèque le rend inadapté aux tâches RGB-T. Pour relever ces défis, nous proposons SHIFNet, un nouveau paradigme hybride d’interaction piloté par SAM2, qui exploite pleinement le potentiel de SAM2 grâce à une guidance linguistique pour une perception RGB-Thermique efficace. Notre cadre se compose de deux composants clés : (1) un module de fusion cross-modale consciente du sens (SACF), qui équilibre dynamiquement les contributions des modalités par apprentissage d’affinité guidé par le texte, surmontant ainsi le biais intrinsèque de SAM2 envers les images RGB ; (2) un décodeur de prompting hétérogène (HPD), qui renforce l’information sémantique globale grâce à un module d’amélioration sémantique, puis la combine avec des embeddings de catégorie afin d’amplifier la cohérence sémantique cross-modale. Avec 32,27 millions de paramètres entraînables, SHIFNet atteint des performances de segmentation de pointe sur des benchmarks publics, obtenant respectivement 89,8 % sur PST900 et 67,8 % sur FMB. Ce cadre facilite l’adaptation des grands modèles pré-entraînés aux tâches de segmentation RGB-T, atténuant efficacement les coûts élevés liés à la collecte de données tout en dotant les systèmes robotiques d’une capacité de perception complète. Le code source sera rendu disponible publiquement à l’adresse suivante : https://github.com/iAsakiT3T/SHIFNet.