SAM2Long : Amélioration de SAM 2 pour la segmentation de vidéos longues avec un arbre mémoire sans apprentissage

Le modèle Segment Anything 2 (SAM 2) est apparu comme un modèle fondamental puissant pour le segmentage d'objets dans les images et les vidéos, ouvrant la voie à diverses applications vidéo en aval. La conception cruciale de SAM 2 pour le segmentage vidéo est son module mémoire, qui sollicite des souvenirs conscients des objets à partir des cadres précédents pour prédire le cadre actuel. Cependant, sa conception de sélection gloutonne de la mémoire souffre du problème de l'« accumulation d'erreurs », où un masque erroné ou manquant se propage et influence le segmentage des cadres suivants, ce qui limite les performances de SAM 2 sur des vidéos complexes à long terme.Pour remédier à cela, nous présentons SAM2Long, une stratégie améliorée de segmentage d'objets vidéo sans apprentissage supplémentaire, qui prend en compte l'incertitude du segmentage au sein de chaque cadre et choisit les résultats optimaux au niveau de la vidéo parmi plusieurs chemins de segmentage dans une approche de recherche arborescente contrainte. En pratique, nous maintenons un nombre fixe de chemins de segmentage tout au long de la vidéo. Pour chaque cadre, plusieurs masques sont proposés sur la base des chemins existants, créant diverses branches candidates. Nous sélectionnons ensuite le même nombre fixe de branches avec des scores cumulés plus élevés comme nouveaux chemins pour le cadre suivant. Après le traitement du dernier cadre, le chemin avec le score cumulé le plus élevé est choisi comme résultat final du segmentage.Grâce à sa conception de recherche heuristique, SAM2Long est robuste face aux occultations et aux réapparitions d'objets, et peut effectivement segmenter et suivre les objets dans des vidéos complexes à long terme. Il convient de noter que SAM2Long réalise une amélioration moyenne de 3,0 points sur l'ensemble des 24 comparaisons directes, avec des gains allant jusqu'à 5,3 points en J&F sur des benchmarks de segmentage d'objets vidéo à long terme tels que SA-V et LVOS. Le code est disponible sur https://github.com/Mark12Ding/SAM2Long.