Die Nutzung von Vision Foundation Modellen für hochleistungsfähige, trainingsfreie Offene Vokabular Segmentierung

Während das Contrastive Language-Image Pre-training (CLIP) die offene Vokabularvorhersage verbessert hat, bleibt seine Leistung bei der semantischen Segmentierung unteroptimal. Dieser Mangel stammt hauptsächlich aus seinen räumlich invarianten semantischen Merkmalen und der eingeschränkten Auflösung. Obwohl frühere Anpassungen die räumliche Invarianz durch Modifikation der Selbst-Aufmerksamkeit im Bildencoder von CLIP angegangen sind, blieb das Problem der begrenzten Auflösung ungelöst. Im Gegensatz zu den bisherigen segmentieren-dann-verbinden Methoden, die Subbilder durch ein Schiebefenster segmentieren und die Ergebnisse verbinden, führen wir ein verbinden-dann-segmentieren Paradigma ein, das das Segment-Anything-Modell (SAM) nutzt, um das Auflösungsproblem anzugehen. SAM zeichnet sich dadurch aus, dass es feingranuläre semantische Korrelationen aus hochaufgelösten Bildern extrahiert. Insbesondere stellen wir Trident vor, einen trainingsfreien Framework, das zunächst Merkmale, die von CLIP und DINO aus Subbildern extrahiert wurden, verbindet und dann SAMs Encoder verwendet, um eine Korrelationsmatrix für globale Aggregation zu erstellen. Dies ermöglicht ein erweitertes Rezeptivfeld für effektive Segmentierung. Darüber hinaus schlagen wir eine Verfeinerungsstrategie für CLIPs grobe Segmentierungsoutputs vor, indem diese in Anweisungen für SAM transformiert werden, was die Segmentierungsleistung weiter verbessert. Trident erreicht eine signifikante Verbesserung des mIoU über acht Benchmarks im Vergleich zum aktuellen State-of-the-Art (SOTA), wobei es von 44,4 auf 48,6 steigt. Der Code ist unter https://github.com/YuHengsss/Trident verfügbar.