il y a 2 mois

SAM 2 : Segmentation de tout dans les images et les vidéos

Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, Christoph Feichtenhofer

Voir les détails de l'article

SAM 2 : Segmentation de tout dans les images et les vidéos

Résumé

Nous présentons le Segment Anything Model 2 (SAM 2), un modèle de base visant à résoudre la segmentation visuelle guidée par des instructions dans les images et les vidéos. Nous avons développé un moteur de données qui améliore le modèle et les données grâce à l'interaction utilisateur, permettant ainsi de constituer la plus grande base de données de segmentation vidéo à ce jour. Notre modèle repose sur une architecture de transformateur simple dotée d'une mémoire en flux pour le traitement vidéo en temps réel. Le SAM 2, formé sur nos données, offre des performances robustes sur une large gamme de tâches. En ce qui concerne la segmentation vidéo, nous constatons une meilleure précision avec trois fois moins d'interactions que les approches précédentes. Pour la segmentation d'images, notre modèle est plus précis et six fois plus rapide que le Segment Anything Model (SAM). Nous pensons que nos données, notre modèle et nos observations constitueront une étape importante pour la segmentation vidéo et les tâches perceptive connexes. Nous mettons à disposition une version de notre modèle, la base de données ainsi qu'une démonstration interactive.