Entspannung der bildspezifischen Anforderungen in SAM: Ein einzelner generischer Prompt für die Segmentierung getarnter Objekte

Die Erkennung getarnter Objekte (Camouflaged Object Detection, COD) basiert stark auf pixelbasierten annotierten Datensätzen. Ansätze zur schwach überwachten COD (Weakly-Supervised Camouflaged Object Detection, WSCOD) nutzen spärliche Annotationen wie Kritzeleien oder Punkte, um die Annotierungsaufwand zu reduzieren. Dies kann jedoch zu einer Verringerung der Genauigkeit führen. Das Segment Anything Modell (SAM) zeigt eine bemerkenswerte Segmentierungsfähigkeit bei spärlichen Eingaben wie Punkten. Manuelle Eingaben sind jedoch nicht immer praktikabel, da sie in realen Anwendungen möglicherweise nicht verfügbar sind. Zudem liefern sie nur Lokalisationsinformationen und keine semantischen, was intrinsisch zu Uneindeutigkeiten bei der Interpretation der Ziele führen kann.In dieser Arbeit streben wir an, den Bedarf an manuellen Eingaben zu beseitigen. Die Kernidee besteht darin, Cross-modal Chains of Thought Prompting (CCTP) einzusetzen, um visuelle Eingaben unter Verwendung semantischer Informationen aus einem generischen Textprompt abzuleiten. Dazu führen wir einen pro-Instanz-Anpassungsmechanismus namens Generalizable SAM (GenSAM) ein, der während des Testprozesses automatisch visuelle Eingaben generiert und optimiert, speziell für WSCOD. Insbesondere verwendet CCTP ein einzelnes generisches Textprompt, um bildspezifische Konsens-Vordergrund- und Hintergrund-Wärmekarten mittels visueller Sprachmodelle zu erstellen, wodurch verlässliche visuelle Eingaben erlangt werden. Darüber hinaus schlagen wir Progressive Mask Generation (PMG) vor, um iterativ das Gewicht des Eingabebildes neu zu verteilen und das Modell grob bis fein auf die Ziele fokussieren zu lassen. Wesentlich ist dabei, dass alle Netzwerkparameter fix bleiben und kein zusätzliches Training erforderlich ist.Experimente zeigen die Überlegenheit von GenSAM. Versuche an drei Benchmarks demonstrieren, dass GenSAM Ansätze mit punktbasierten Überwachungen übertrifft und vergleichbare Ergebnisse wie Ansätze mit kritzelpunkt-basierten Überwachungen erzielt – ausschließlich auf Basis allgemeiner Aufgabenbeschreibungen als Prompts. Unser Code ist unter folgender URL verfügbar: https://lwpyh.github.io/GenSAM/.