HyperAIHyperAI

Command Palette

Search for a command to run...

SAM2Long : Amélioration de SAM 2 pour la segmentation vidéo longue à l’aide d’un arbre mémoire sans entraînement

Shuangrui Ding Rui Qian Xiaoyi Dong Pan Zhang Yuhang Zang Yuhang Cao Yuwei Guo Dahua Lin Jiaqi Wang

Résumé

Le modèle Segment Anything 2 (SAM 2) s’est imposé comme un modèle fondamental puissant pour la segmentation d’objets dans les images et les vidéos, ouvrant la voie à diverses applications vidéo en aval. La caractéristique essentielle du SAM 2 pour la segmentation vidéo réside dans son module de mémoire, qui extrait des mémoires conscientes des objets à partir des cadres précédents afin de prédire les masques du cadre courant. Toutefois, sa conception de mémoire basée sur une sélection gloutonne souffre du problème d’accumulation d’erreurs : un masque erroné ou manquant se propage et influence la segmentation des cadres suivants, limitant ainsi les performances du SAM 2 sur des vidéos complexes à long terme.À cet effet, nous proposons SAM2Long, une stratégie améliorée de segmentation d’objets vidéo sans entraînement, qui prend en compte l’incertitude de segmentation dans chaque cadre et sélectionne, de manière contrôlée via une recherche arborescente, le résultat optimal au niveau de la vidéo parmi plusieurs chemins de segmentation. En pratique, nous maintenons un nombre fixe de chemins de segmentation tout au long de la vidéo. Pour chaque cadre, plusieurs masques sont proposés à partir des chemins existants, générant ainsi diverses branches candidates. Nous sélectionnons ensuite le même nombre fixe de branches présentant les meilleurs scores cumulés pour constituer les nouveaux chemins du cadre suivant. Une fois le dernier cadre traité, le chemin ayant le score cumulé le plus élevé est retenu comme résultat final de segmentation.Grâce à sa conception de recherche heuristique, SAM2Long est robuste face aux occlusions et aux réapparitions d’objets, et permet efficacement la segmentation et le suivi d’objets dans des vidéos complexes à long terme. Notamment, SAM2Long obtient une amélioration moyenne de 3,0 point sur l’ensemble des 24 comparaisons directes, avec des gains pouvant atteindre 5,3 points en J&F sur des benchmarks de segmentation d’objets vidéo à long terme tels que SA-V et LVOS. Le code source est disponible à l’adresse suivante : https://github.com/Mark12Ding/SAM2Long.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
SAM2Long : Amélioration de SAM 2 pour la segmentation vidéo longue à l’aide d’un arbre mémoire sans entraînement | Articles | HyperAI