HyperAIHyperAI
il y a 2 mois

Relâcher l'exigence de prompt spécifique à l'image dans SAM : Un seul prompt générique pour segmenter les objets camouflés

Hu, Jian ; Lin, Jiayi ; Cai, Weitong ; Gong, Shaogang
Relâcher l'exigence de prompt spécifique à l'image dans SAM : Un seul prompt générique pour segmenter les objets camouflés
Résumé

Les approches de détection d'objets camouflés (COD) dépendent fortement de jeux de données annotés au niveau des pixels. Les approches de COD faiblement supervisées (WSCOD) utilisent des annotations éparse comme des griffonnages ou des points pour réduire l'effort d'annotation, mais cela peut entraîner une diminution de la précision. Le modèle Segment Anything Model (SAM) montre une capacité de segmentation remarquable avec des prompts éparse comme des points. Cependant, le prompt manuel n'est pas toujours réalisable, car il peut ne pas être accessible dans les applications du monde réel. De plus, il ne fournit que des informations de localisation et non sémantiques, ce qui peut intrinsèquement causer une ambiguïté dans l'interprétation des cibles. Dans cette étude, nous visons à éliminer la nécessité d'un prompt manuel. L'idée clé est d'utiliser le prompting par chaînes de pensée intermodales (CCTP) pour raisonner sur les prompts visuels en utilisant les informations sémantiques fournies par un prompt textuel générique. À cet effet, nous introduisons un mécanisme d'adaptation à l'exécution par instance appelé SAM généralisable (GenSAM) pour générer et optimiser automatiquement les prompts visuels à partir du prompt textuel générique pour le WSCOD. Plus précisément, CCTP mappe un seul prompt textuel générique sur des cartes thermiques spécifiques à l'image représentant le premier plan et l'arrière-plan consensuels en utilisant des modèles vision-langage, obtenir ainsi des prompts visuels fiables. De plus, pour adapter les prompts visuels à l'exécution, nous proposons une méthode de génération progressive de masques (PMG) pour réajuster itérativement l'image d'entrée, guidant le modèle à se concentrer sur les cibles d'une manière grossière à fine. Il est crucial de noter que tous les paramètres du réseau sont fixés, évitant ainsi la nécessité d'un entraînement supplémentaire. Les expériences démontrent la supériorité de GenSAM. Des expériences menées sur trois benchmarks montrent que GenSAM surpassent les approches basées sur la supervision par points et obtiennent des résultats comparables à ceux basés sur la supervision par griffonnages, en se basant uniquement sur des descriptions générales de tâches comme prompts.Notre code est disponible à : https://lwpyh.github.io/GenSAM/.

Relâcher l'exigence de prompt spécifique à l'image dans SAM : Un seul prompt générique pour segmenter les objets camouflés | Articles de recherche récents | HyperAI