vor 8 Monaten

Zusammenfassung

PSALM ist eine leistungsstarke Erweiterung des großen multimodalen Modells (LMM), um die Herausforderungen der Segmentierungsaufgaben zu bewältigen. Um die Einschränkung der LMM auf textuelle Ausgabe zu überwinden, integriert PSALM einen Maskendekoder und ein gut konzipiertes Eingabeschema, das es ermöglicht, verschiedene Segmentierungsaufgaben zu bearbeiten. Dieses Schema umfasst Bilder, Aufgabenanweisungen, bedingte Anregungen und Maskentoken, die das Modell in der Lage sind, Segmentierungsmasken effektiv zu generieren und zu klassifizieren. Die flexible Gestaltung von PSALM unterstützt die gemeinsame Schulung über mehrere Datensätze und Aufgaben hinweg, was zu einer verbesserten Leistung und besseren Aufgabenverallgemeinerung führt. PSALM erzielt hervorragende Ergebnisse auf mehreren Benchmarks wie RefCOCO/RefCOCO+/RefCOCOg, COCO Panoptische Segmentierung und COCO-Interaktiv. Darüber hinaus zeigt PSALM Fähigkeiten im Zero-Shot-Lernen bei unbekannten Aufgaben wie off-vocabulary-Segmentierung, verallgemeinerte referentielle Ausdruckssegmentierung und Videoobjektsegmentierung, was einen bedeutenden Schritt in Richtung eines GPT-Moments in der Computer Vision darstellt. Durch umfangreiche Experimente wird das Potenzial von PSALM zur Transformation des Bereichs der Bildsegmentierung demonstriert, indem es die robusten visuellen Verständnisfähigkeiten von LMMs nutzt, wie sie aus dem Bereich der natürlichen Sprachverarbeitung bekannt sind. Der Quellcode und die Modelle sind unter https://github.com/zamling/PSALM verfügbar.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Bildsegmentierung

Semantische Segmentierung

Multimodal

Computervision

Aufgabe

Zheng Zhang Yeyao Ma Enming Zhang Xiang Bai

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Bildsegmentierung

Semantische Segmentierung

Multimodal

Computervision

Aufgabe

Zheng Zhang Yeyao Ma Enming Zhang Xiang Bai

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

PSALM: Pixelweise Segmentierung mit großem multimodalem Modell

Zheng Zhang Yeyao Ma Enming Zhang Xiang Bai

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

PSALM: Pixelweise Segmentierung mit großem multimodalem Modell

Zheng Zhang Yeyao Ma Enming Zhang Xiang Bai

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

PSALM: Pixelweise Segmentierung mit großem multimodalem Modell

Zheng Zhang Yeyao Ma Enming Zhang Xiang Bai

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters