HyperAIHyperAI
vor 2 Monaten

PosSAM: Panoptische Offenwortschatz Segmentierung von Allem

Vibashan VS; Shubhankar Borse; Hyojin Park; Debasmit Das; Vishal Patel; Munawar Hayat; Fatih Porikli
PosSAM: Panoptische Offenwortschatz Segmentierung von Allem
Abstract

In dieser Arbeit stellen wir ein offenes Vokabular für ein panoptisches Segmentierungsmodell vor, das die Stärken des Segment Anything Modells (SAM) und des visuellen-sprachlichen CLIP-Modells in einem end-to-end-Framework effektiv vereint. Während SAM darin hervorragt, räumlich bewusste Masken zu generieren, fällt dessen Decoder bei der Erkennung von Objektklasseninformationen und neigt ohne zusätzliche Anleitung zur Übersegmentierung. Bestehende Ansätze beheben diese Einschränkungen durch die Verwendung mehrstufiger Techniken und getrennter Modelle zur Generierung von klassenbewussten Prompts, wie z.B. Begrenzungsrahmen oder Segmentierungsmasken. Unser vorgeschlagenes Verfahren, PosSAM, ist ein end-to-end-Modell, das die räumlich reichen Merkmale von SAM nutzt, um instanzbewusste Masken zu erzeugen, und die semantisch diskriminativen Merkmale von CLIP für eine effektive Instanzklassifizierung nutzt. Insbesondere adressieren wir die Einschränkungen von SAM und schlagen ein neuartiges Modul für lokale diskriminative Pooling (LDP) vor, das klassenagnostische SAM-Merkmale und klassenbewusste CLIP-Merkmale für eine unverzerrte Klassifikation mit offenem Vokabular nutzt. Darüber hinaus führen wir einen maskenbewussten selektiven Ensemblealgorithmus (MASE) ein, der die Qualität der generierten Masken anpassungsfähig verbessert und während der Inferenz für jedes Bild die Leistungsfähigkeit der Klassifikation mit offenem Vokabular steigert. Wir haben umfangreiche Experimente durchgeführt, um die starken Generalisierungseigenschaften unserer Methoden auf mehreren Datensätzen zu demonstrieren und erreichen dabei den aktuellen Stand der Technik mit erheblichen Verbesserungen gegenüber anderen top-performanten Methoden der panoptischen Segmentierung mit offenem Vokabular. In beiden Szenarien, COCO nach ADE20K und ADE20K nach COCO, übertrifft PosSAM die bisher besten Methoden deutlich um 2,4 PQ und 4,6 PQ respektive. Projektwebsite: https://vibashan.github.io/possam-web/.