MAS-SAM : Segmentation de tout animal marin avec des caractéristiques agrégées

Récemment, le modèle Segment Anything Model (SAM) a montré des performances exceptionnelles dans la génération de masques d'objets de haute qualité et l'atteinte de la segmentation d'images en vue zéro. Cependant, en tant que modèle visuel polyvalent, le SAM est principalement formé à partir d'images à grande échelle prises en lumière naturelle. Dans les scènes sous-marines, il présente une dégradation considérable des performances en raison de la diffusion et de l'absorption de la lumière. Par ailleurs, la simplicité du décodeur du SAM peut entraîner une perte de détails fins des objets. Pour remédier aux problèmes mentionnés ci-dessus, nous proposons un nouveau cadre d'apprentissage des caractéristiques nommé MAS-SAM pour la segmentation des animaux marins, qui implique l'intégration d'adaptateurs efficaces dans l'encodeur du SAM et la construction d'un décodeur pyramidal. Plus précisément, nous construisons tout d'abord un nouvel encodeur SAM avec des adaptateurs efficaces pour les scènes sous-marines. Ensuite, nous introduisons un module d'extraction Hypermap (HEM) pour générer des caractéristiques multi-échelles offrant une guidance complète. Enfin, nous proposons un décodeur de prédiction progressive (PPD) pour agréger les caractéristiques multi-échelles et prédire les résultats finaux de segmentation. Lorsqu'il est associé au module d'attention fusion (FAM), notre méthode permet d'extraire des informations marines plus riches à partir des indices contextuels globaux jusqu'aux détails locaux fins. Des expériences approfondies sur quatre jeux de données MAS publics montrent que notre MAS-SAM peut obtenir de meilleurs résultats que d'autres méthodes typiques de segmentation. Le code source est disponible à l'adresse suivante : https://github.com/Drchip61/MAS-SAM.