PSALM: Pixelweise Segmentierung mit großem multimodalem Modell

PSALM ist eine leistungsstarke Erweiterung des großen multimodalen Modells (LMM), um die Herausforderungen der Segmentierungsaufgaben zu bewältigen. Um die Einschränkung der LMM auf textuelle Ausgabe zu überwinden, integriert PSALM einen Maskendekoder und ein gut konzipiertes Eingabeschema, das es ermöglicht, verschiedene Segmentierungsaufgaben zu bearbeiten. Dieses Schema umfasst Bilder, Aufgabenanweisungen, bedingte Anregungen und Maskentoken, die das Modell in der Lage sind, Segmentierungsmasken effektiv zu generieren und zu klassifizieren. Die flexible Gestaltung von PSALM unterstützt die gemeinsame Schulung über mehrere Datensätze und Aufgaben hinweg, was zu einer verbesserten Leistung und besseren Aufgabenverallgemeinerung führt. PSALM erzielt hervorragende Ergebnisse auf mehreren Benchmarks wie RefCOCO/RefCOCO+/RefCOCOg, COCO Panoptische Segmentierung und COCO-Interaktiv. Darüber hinaus zeigt PSALM Fähigkeiten im Zero-Shot-Lernen bei unbekannten Aufgaben wie off-vocabulary-Segmentierung, verallgemeinerte referentielle Ausdruckssegmentierung und Videoobjektsegmentierung, was einen bedeutenden Schritt in Richtung eines GPT-Moments in der Computer Vision darstellt. Durch umfangreiche Experimente wird das Potenzial von PSALM zur Transformation des Bereichs der Bildsegmentierung demonstriert, indem es die robusten visuellen Verständnisfähigkeiten von LMMs nutzt, wie sie aus dem Bereich der natürlichen Sprachverarbeitung bekannt sind. Der Quellcode und die Modelle sind unter https://github.com/zamling/PSALM verfügbar.