SAM2-UNet : Segment Anything 2 Constitue un Encodeur Puissant pour la Segmentation d'Images Naturelles et Médicales

La segmentation d'images joue un rôle crucial dans la compréhension visuelle. Récemment, les modèles fondamentaux de vision émergents ont constamment obtenu des performances supérieures sur diverses tâches. Suite à ces succès, dans cet article, nous démontrons que le modèle Segment Anything Model 2 (SAM2) peut être un encodeur puissant pour les modèles de segmentation en forme de U. Nous proposons un cadre simple mais efficace, appelé SAM2-UNet, pour une segmentation d'images polyvalente. Plus précisément, SAM2-UNet utilise le backbone Hiera de SAM2 comme encodeur, tandis que le décodeur adopte la conception classique en forme de U. De plus, des adaptateurs sont intégrés dans l'encodeur afin de permettre un ajustement fin paramétriquement efficace. Des expériences préliminaires sur diverses tâches en aval, telles que la détection d'objets camouflés, la détection d'objets saillants, la segmentation d'animaux marins, la détection de miroirs et la segmentation de polypes, montrent que notre SAM2-UNet peut simplement surpasser les méthodes spécialisées existantes sans recours à des techniques complexes. Page du projet : \url{https://github.com/WZH0120/SAM2-UNet}.