il y a 17 jours

MemorySAM : Memoriser les modalités et les sémantiques avec le modèle Segment Anything pour la segmentation sémantique multi-modale

Liao, Chenfei, Zheng, Xu, Lyu, Yuanhuiyi, Xue, Haiwei, Cao, Yihong, Wang, Jiawen, Yang, Kailun, Hu, Xuming

Résumé

La recherche s'est concentrée sur la segmentation sémantique multi-modale (MMSS), où des prédictions au niveau des pixels sont obtenues à partir de plusieurs modalités visuelles captées par des capteurs divers. Récemment, le grand modèle visuel, Segment Anything Model 2 (SAM2), a démontré des performances remarquables en segmentation zéro-shot sur des images et des vidéos. Lorsqu’on étend SAM2 à la MMSS, deux problèmes émergent : 1. Comment adapter SAM2 aux données multi-modales ? 2. Comment permettre à SAM2 de mieux comprendre les sémantiques ? Inspirés par la corrélation entre cadres dans les vidéos, nous proposons de traiter les données multi-modales comme une séquence de cadres représentant la même scène. Notre idée principale consiste à « mémoriser » les informations indépendantes de la modalité et à « mémoriser » les sémantiques liées à la scène cible. Pour ce faire, nous appliquons les mécanismes de mémoire de SAM2 aux données multi-modales afin de capturer des caractéristiques indépendantes de la modalité. Parallèlement, pour mémoriser les connaissances sémantiques, nous proposons un module de mémoire de prototypes sémantiques (SPMM), conçu uniquement pour l'entraînement, afin de stocker des prototypes au niveau des catégories tout au long de l'entraînement, facilitant ainsi la transition de SAM2 de la segmentation d'instances vers la segmentation sémantique. Une perte d’adaptation prototypique est appliquée de manière itérative entre les prototypes globaux et locaux afin d’aligner et d’affiner la compréhension sémantique de SAM2. Des résultats expérimentaux étendus montrent que notre méthode, MemorySAM, surpasse largement les méthodes de l’état de l’art sur des benchmarks synthétiques et réels (65,38 % sur DELIVER, 52,88 % sur MCubeS). Le code source sera rendu publiquement disponible.