Personnaliser le modèle Segment Anything avec une seule image

Propulsé par l'entraînement préalable sur de grandes données, le modèle Segment Anything (SAM) a été démontré comme étant un cadre puissant et promptable, révolutionnant les modèles de segmentation. Malgré sa généralité, l'adaptation de SAM à des concepts visuels spécifiques sans intervention humaine pour la génération des prompts reste peu explorée, par exemple, la segmentation automatique de votre chien dans différentes images. Dans cet article, nous proposons une approche de personnalisation sans entraînement pour SAM, appelée PerSAM. À partir d'une seule image avec un masque de référence, PerSAM localise d'abord le concept cible grâce à un a priori de localisation, puis le segmente dans d'autres images ou vidéos grâce à trois techniques : l'attention guidée par la cible, la génération de prompts sémantiques basés sur la cible et le raffinement postérieur en cascade. De cette manière, nous adaptons efficacement SAM pour une utilisation privée sans aucun entraînement. Pour réduire davantage l'ambiguïté des masques, nous présentons une variante d'affinage en un seul coup (one-shot fine-tuning), appelée PerSAM-F. En gelant l'intégralité de SAM, nous introduisons deux poids apprenables pour les masques multi-échelles, ne formant que 2 paramètres en moins de 10 secondes pour améliorer les performances. Afin de démontrer notre efficacité, nous avons construit un nouveau jeu de données de segmentation, PerSeg, pour l'évaluation personnalisée et testé nos méthodes sur la segmentation d'objets vidéo avec des performances compétitives. De plus, notre approche peut également améliorer DreamBooth pour personnaliser Stable Diffusion dans la génération d'images à partir du texte, ce qui élimine les perturbations du fond pour une meilleure apprentissage de l'apparence cible. Le code est disponible sur https://github.com/ZrrSkywalker/Personalize-SAM