HyperAIHyperAI

Command Palette

Search for a command to run...

Offene-Vokabular-Universelle Bildsegmentierung mit MaskCLIP

Zheng Ding Jieke Wang Zhuowen Tu

Zusammenfassung

In dieser Arbeit befassen wir uns mit einer neuen Aufgabe im Bereich der Computer Vision, nämlich der offenvokabulären universellen Bildsegmentierung, die darauf abzielt, in Echtzeit semantische/instanzbasierte/panoptische Segmentierung (Hintergrundsemantik + Vordergrundinstanzsegmentierung) für beliebige Kategorien auf Textbeschreibungen basierend durchzuführen. Zunächst bauen wir eine Baseline-Methode auf, indem wir vortrainierte CLIP-Modelle ohne Feinabstimmung oder Destillierung direkt verwenden. Anschließend entwickeln wir MaskCLIP, einen transformerbasierten Ansatz mit einem MaskCLIP-Visuellen Encoder, der ein reiner Encoder-Modul ist und Maskentoken nahtlos in ein vortrainiertes ViT CLIP-Modell integriert, um semantische/instanzbasierte Segmentierung und Klassifikationsvorhersage durchzuführen. MaskCLIP lernt, prätrainierte partielle/dichte CLIP-Features innerhalb des MaskCLIP-Visuellen Encoders effizient und effektiv zu nutzen, wodurch der zeitaufwendige Trainingsprozess von Schüler-Lehrer-Modellen vermieden wird. MaskCLIP übertrifft vorherige Methoden bei der semantischen/instanzbasierten/panoptischen Segmentierung auf den Datensätzen ADE20K und PASCAL. Wir zeigen qualitative Illustrationen für MaskCLIP mit online benutzerdefinierten Kategorien. Projektwebsite: https://maskclip.github.io.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp