HyperAIHyperAI

Command Palette

Search for a command to run...

Dévoiler le potentiel du Segment Anything Model 2 pour la segmentation sémantique RGB-Thermal avec une guidance linguistique

Résumé

La capacité de perception des systèmes robotiques repose sur la richesse des jeux de données. Bien que le Segment Anything Model 2 (SAM2), entraîné sur de grands jeux de données, démontre un fort potentiel de perception dans les tâches de perception, son paradigme d'entraînement intrinsèque le rend inadapté aux tâches RGB-T. Pour relever ces défis, nous proposons SHIFNet, un nouveau paradigme hybride d’interaction piloté par SAM2, qui exploite pleinement le potentiel de SAM2 grâce à une guidance linguistique pour une perception RGB-Thermique efficace. Notre cadre se compose de deux composants clés : (1) un module de fusion cross-modale consciente du sens (SACF), qui équilibre dynamiquement les contributions des modalités par apprentissage d’affinité guidé par le texte, surmontant ainsi le biais intrinsèque de SAM2 envers les images RGB ; (2) un décodeur de prompting hétérogène (HPD), qui renforce l’information sémantique globale grâce à un module d’amélioration sémantique, puis la combine avec des embeddings de catégorie afin d’amplifier la cohérence sémantique cross-modale. Avec 32,27 millions de paramètres entraînables, SHIFNet atteint des performances de segmentation de pointe sur des benchmarks publics, obtenant respectivement 89,8 % sur PST900 et 67,8 % sur FMB. Ce cadre facilite l’adaptation des grands modèles pré-entraînés aux tâches de segmentation RGB-T, atténuant efficacement les coûts élevés liés à la collecte de données tout en dotant les systèmes robotiques d’une capacité de perception complète. Le code source sera rendu disponible publiquement à l’adresse suivante : https://github.com/iAsakiT3T/SHIFNet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Dévoiler le potentiel du Segment Anything Model 2 pour la segmentation sémantique RGB-Thermal avec une guidance linguistique | Articles | HyperAI