HyperAIHyperAI

Command Palette

Search for a command to run...

MemorySAM : Memoriser les modalités et les sémantiques avec le modèle Segment Anything pour la segmentation sémantique multi-modale

Résumé

La recherche s'est concentrée sur la segmentation sémantique multi-modale (MMSS), où des prédictions au niveau des pixels sont obtenues à partir de plusieurs modalités visuelles captées par des capteurs divers. Récemment, le grand modèle visuel, Segment Anything Model 2 (SAM2), a démontré des performances remarquables en segmentation zéro-shot sur des images et des vidéos. Lorsqu’on étend SAM2 à la MMSS, deux problèmes émergent : 1. Comment adapter SAM2 aux données multi-modales ? 2. Comment permettre à SAM2 de mieux comprendre les sémantiques ? Inspirés par la corrélation entre cadres dans les vidéos, nous proposons de traiter les données multi-modales comme une séquence de cadres représentant la même scène. Notre idée principale consiste à « mémoriser » les informations indépendantes de la modalité et à « mémoriser » les sémantiques liées à la scène cible. Pour ce faire, nous appliquons les mécanismes de mémoire de SAM2 aux données multi-modales afin de capturer des caractéristiques indépendantes de la modalité. Parallèlement, pour mémoriser les connaissances sémantiques, nous proposons un module de mémoire de prototypes sémantiques (SPMM), conçu uniquement pour l'entraînement, afin de stocker des prototypes au niveau des catégories tout au long de l'entraînement, facilitant ainsi la transition de SAM2 de la segmentation d'instances vers la segmentation sémantique. Une perte d’adaptation prototypique est appliquée de manière itérative entre les prototypes globaux et locaux afin d’aligner et d’affiner la compréhension sémantique de SAM2. Des résultats expérimentaux étendus montrent que notre méthode, MemorySAM, surpasse largement les méthodes de l’état de l’art sur des benchmarks synthétiques et réels (65,38 % sur DELIVER, 52,88 % sur MCubeS). Le code source sera rendu publiquement disponible.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MemorySAM : Memoriser les modalités et les sémantiques avec le modèle Segment Anything pour la segmentation sémantique multi-modale | Articles | HyperAI