HyperAIHyperAI

Command Palette

Search for a command to run...

PSALM: Pixelweise Segmentierung mit großem multimodalem Modell

Zheng Zhang Yeyao Ma Enming Zhang Xiang Bai

Zusammenfassung

PSALM ist eine leistungsstarke Erweiterung des großen multimodalen Modells (LMM), um die Herausforderungen der Segmentierungsaufgaben zu bewältigen. Um die Einschränkung der LMM auf textuelle Ausgabe zu überwinden, integriert PSALM einen Maskendekoder und ein gut konzipiertes Eingabeschema, das es ermöglicht, verschiedene Segmentierungsaufgaben zu bearbeiten. Dieses Schema umfasst Bilder, Aufgabenanweisungen, bedingte Anregungen und Maskentoken, die das Modell in der Lage sind, Segmentierungsmasken effektiv zu generieren und zu klassifizieren. Die flexible Gestaltung von PSALM unterstützt die gemeinsame Schulung über mehrere Datensätze und Aufgaben hinweg, was zu einer verbesserten Leistung und besseren Aufgabenverallgemeinerung führt. PSALM erzielt hervorragende Ergebnisse auf mehreren Benchmarks wie RefCOCO/RefCOCO+/RefCOCOg, COCO Panoptische Segmentierung und COCO-Interaktiv. Darüber hinaus zeigt PSALM Fähigkeiten im Zero-Shot-Lernen bei unbekannten Aufgaben wie off-vocabulary-Segmentierung, verallgemeinerte referentielle Ausdruckssegmentierung und Videoobjektsegmentierung, was einen bedeutenden Schritt in Richtung eines GPT-Moments in der Computer Vision darstellt. Durch umfangreiche Experimente wird das Potenzial von PSALM zur Transformation des Bereichs der Bildsegmentierung demonstriert, indem es die robusten visuellen Verständnisfähigkeiten von LMMs nutzt, wie sie aus dem Bereich der natürlichen Sprachverarbeitung bekannt sind. Der Quellcode und die Modelle sind unter https://github.com/zamling/PSALM verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
PSALM: Pixelweise Segmentierung mit großem multimodalem Modell | Paper | HyperAI