HyperAIHyperAI

Command Palette

Search for a command to run...

Die Nutzung von Vision Foundation Modellen für hochleistungsfähige, trainingsfreie Offene Vokabular Segmentierung

Yuheng Shi Minjing Dong Chang Xu

Zusammenfassung

Während das Contrastive Language-Image Pre-training (CLIP) die offene Vokabularvorhersage verbessert hat, bleibt seine Leistung bei der semantischen Segmentierung unteroptimal. Dieser Mangel stammt hauptsächlich aus seinen räumlich invarianten semantischen Merkmalen und der eingeschränkten Auflösung. Obwohl frühere Anpassungen die räumliche Invarianz durch Modifikation der Selbst-Aufmerksamkeit im Bildencoder von CLIP angegangen sind, blieb das Problem der begrenzten Auflösung ungelöst. Im Gegensatz zu den bisherigen segmentieren-dann-verbinden Methoden, die Subbilder durch ein Schiebefenster segmentieren und die Ergebnisse verbinden, führen wir ein verbinden-dann-segmentieren Paradigma ein, das das Segment-Anything-Modell (SAM) nutzt, um das Auflösungsproblem anzugehen. SAM zeichnet sich dadurch aus, dass es feingranuläre semantische Korrelationen aus hochaufgelösten Bildern extrahiert. Insbesondere stellen wir Trident vor, einen trainingsfreien Framework, das zunächst Merkmale, die von CLIP und DINO aus Subbildern extrahiert wurden, verbindet und dann SAMs Encoder verwendet, um eine Korrelationsmatrix für globale Aggregation zu erstellen. Dies ermöglicht ein erweitertes Rezeptivfeld für effektive Segmentierung. Darüber hinaus schlagen wir eine Verfeinerungsstrategie für CLIPs grobe Segmentierungsoutputs vor, indem diese in Anweisungen für SAM transformiert werden, was die Segmentierungsleistung weiter verbessert. Trident erreicht eine signifikante Verbesserung des mIoU über acht Benchmarks im Vergleich zum aktuellen State-of-the-Art (SOTA), wobei es von 44,4 auf 48,6 steigt. Der Code ist unter https://github.com/YuHengsss/Trident verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp