HyperAIHyperAI

Command Palette

Search for a command to run...

PosSAM: Panoptische Offenwortschatz Segmentierung von Allem

Vibashan VS Shubhankar Borse Hyojin Park Debasmit Das Vishal Patel Munawar Hayat Fatih Porikli

Zusammenfassung

In dieser Arbeit stellen wir ein offenes Vokabular für ein panoptisches Segmentierungsmodell vor, das die Stärken des Segment Anything Modells (SAM) und des visuellen-sprachlichen CLIP-Modells in einem end-to-end-Framework effektiv vereint. Während SAM darin hervorragt, räumlich bewusste Masken zu generieren, fällt dessen Decoder bei der Erkennung von Objektklasseninformationen und neigt ohne zusätzliche Anleitung zur Übersegmentierung. Bestehende Ansätze beheben diese Einschränkungen durch die Verwendung mehrstufiger Techniken und getrennter Modelle zur Generierung von klassenbewussten Prompts, wie z.B. Begrenzungsrahmen oder Segmentierungsmasken. Unser vorgeschlagenes Verfahren, PosSAM, ist ein end-to-end-Modell, das die räumlich reichen Merkmale von SAM nutzt, um instanzbewusste Masken zu erzeugen, und die semantisch diskriminativen Merkmale von CLIP für eine effektive Instanzklassifizierung nutzt. Insbesondere adressieren wir die Einschränkungen von SAM und schlagen ein neuartiges Modul für lokale diskriminative Pooling (LDP) vor, das klassenagnostische SAM-Merkmale und klassenbewusste CLIP-Merkmale für eine unverzerrte Klassifikation mit offenem Vokabular nutzt. Darüber hinaus führen wir einen maskenbewussten selektiven Ensemblealgorithmus (MASE) ein, der die Qualität der generierten Masken anpassungsfähig verbessert und während der Inferenz für jedes Bild die Leistungsfähigkeit der Klassifikation mit offenem Vokabular steigert. Wir haben umfangreiche Experimente durchgeführt, um die starken Generalisierungseigenschaften unserer Methoden auf mehreren Datensätzen zu demonstrieren und erreichen dabei den aktuellen Stand der Technik mit erheblichen Verbesserungen gegenüber anderen top-performanten Methoden der panoptischen Segmentierung mit offenem Vokabular. In beiden Szenarien, COCO nach ADE20K und ADE20K nach COCO, übertrifft PosSAM die bisher besten Methoden deutlich um 2,4 PQ und 4,6 PQ respektive. Projektwebsite: https://vibashan.github.io/possam-web/.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
PosSAM: Panoptische Offenwortschatz Segmentierung von Allem | Paper | HyperAI