HyperAIHyperAI

Command Palette

Search for a command to run...

Freie dichte Labels aus CLIP extrahieren

Chong Zhou Chen Change Loy Bo Dai

Zusammenfassung

Contrastive Language-Image Pre-training (CLIP) hat einen bemerkenswerten Durchbruch in der offenen Vokabular Zero-Shot-Bilderkennung erzielt. Viele kürzliche Studien nutzen die vorgefertigten CLIP-Modelle für bildbasierte Klassifikation und Manipulation. In dieser Arbeit möchten wir das intrinsische Potenzial von CLIP für pixelbasierte dichte Vorhersage, insbesondere in der semantischen Segmentierung, untersuchen. Zu diesem Zweck zeigen wir mit minimalen Änderungen, dass MaskCLIP überzeugende Segmentierungsresultate auf offenen Konzepten in verschiedenen Datensätzen ohne Annotationen und Feinabstimmung liefert. Durch das Hinzufügen von Pseudobeschriftungen und Selbsttraining übertreffen MaskCLIP+ die besten transduktiven Zero-Shot-Semantiksegmentierungsmethoden um große Margen, z.B. werden die mIoUs (mean Intersection over Union) der unbekannten Klassen auf PASCAL VOC/PASCAL Context/COCO Stuff von 35,6/20,7/30,3 auf 86,1/66,7/54,7 verbessert. Wir testen auch die Robustheit von MaskCLIP bei Eingangsverfälschungen und bewerten seine Fähigkeit zur Unterscheidung feingranulärer Objekte und neuer Konzepte. Unsere Ergebnisse deuten darauf hin, dass MaskCLIP als neue zuverlässige Quelle der Überwachung für dichte Vorhersageaufgaben dienen kann, um eine segmentierung ohne Annotation zu erreichen. Der Quellcode ist unter https://github.com/chongzhou96/MaskCLIP verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp