HyperAIHyperAI

Command Palette

Search for a command to run...

Relâcher l'exigence de prompt spécifique à l'image dans SAM : Un seul prompt générique pour segmenter les objets camouflés

Jian Hu Jiayi Lin Weitong Cai Shaogang Gong

Résumé

Les approches de détection d'objets camouflés (COD) dépendent fortement de jeux de données annotés au niveau des pixels. Les approches de COD faiblement supervisées (WSCOD) utilisent des annotations éparse comme des griffonnages ou des points pour réduire l'effort d'annotation, mais cela peut entraîner une diminution de la précision. Le modèle Segment Anything Model (SAM) montre une capacité de segmentation remarquable avec des prompts éparse comme des points. Cependant, le prompt manuel n'est pas toujours réalisable, car il peut ne pas être accessible dans les applications du monde réel. De plus, il ne fournit que des informations de localisation et non sémantiques, ce qui peut intrinsèquement causer une ambiguïté dans l'interprétation des cibles. Dans cette étude, nous visons à éliminer la nécessité d'un prompt manuel. L'idée clé est d'utiliser le prompting par chaînes de pensée intermodales (CCTP) pour raisonner sur les prompts visuels en utilisant les informations sémantiques fournies par un prompt textuel générique. À cet effet, nous introduisons un mécanisme d'adaptation à l'exécution par instance appelé SAM généralisable (GenSAM) pour générer et optimiser automatiquement les prompts visuels à partir du prompt textuel générique pour le WSCOD. Plus précisément, CCTP mappe un seul prompt textuel générique sur des cartes thermiques spécifiques à l'image représentant le premier plan et l'arrière-plan consensuels en utilisant des modèles vision-langage, obtenir ainsi des prompts visuels fiables. De plus, pour adapter les prompts visuels à l'exécution, nous proposons une méthode de génération progressive de masques (PMG) pour réajuster itérativement l'image d'entrée, guidant le modèle à se concentrer sur les cibles d'une manière grossière à fine. Il est crucial de noter que tous les paramètres du réseau sont fixés, évitant ainsi la nécessité d'un entraînement supplémentaire. Les expériences démontrent la supériorité de GenSAM. Des expériences menées sur trois benchmarks montrent que GenSAM surpassent les approches basées sur la supervision par points et obtiennent des résultats comparables à ceux basés sur la supervision par griffonnages, en se basant uniquement sur des descriptions générales de tâches comme prompts.Notre code est disponible à : https://lwpyh.github.io/GenSAM/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp