vor 2 Monaten

TagCLIP: Ein Framework von Lokal zu Global, um die offene Vokabular-Multi-Label-Klassifizierung von CLIP ohne Training zu verbessern

Yuqi Lin; Minghao Chen; Kaipeng Zhang; Hengjia Li; Mingming Li; Zheng Yang; Dongqin Lv; Binbin Lin; Haifeng Liu; Deng Cai

Details der Forschungsarbeit anzeigen

TagCLIP: Ein Framework von Lokal zu Global, um die offene Vokabular-Multi-Label-Klassifizierung von CLIP ohne Training zu verbessern

Abstract

Das Contrastive Language-Image Pre-training (CLIP) hat beeindruckende Fähigkeiten in der offenen Vokabularklassifikation gezeigt. Das Klassen-Token im Bildencoder wird trainiert, um globale Merkmale zu erfassen, die verschiedene Textbeschreibungen unter Aufsicht des kontrastiven Verlustes unterscheiden, was es für die Einzelklassifikation sehr effektiv macht. Allerdings zeigt es bei multiklassigen Datensätzen eine schlechte Leistung, da das globale Merkmal tendenziell von der prominentesten Klasse dominiert wird und die kontrastive Natur der Softmax-Operation dies verschärft. In dieser Studie beobachten wir, dass die Ergebnisse der multiklassen-Klassifikation stark von diskriminativen lokalen Merkmalen abhängen, diese aber von CLIP übersehen werden. Daher analysieren wir den Erhalt von patchweisen räumlichen Informationen in CLIP und schlagen einen lokal-zu-global-Framework zur Gewinnung von Bildtags vor. Dieses Framework besteht aus drei Schritten: (1) Patch-Level-Klassifikation zur Gewinnung grober Scores; (2) Modul zur Doppelmasking-Aufmerksamkeitsverfeinerung (DMAR), um die groben Scores zu verfeinern; (3) Modul zur klassenspezifischen Wiederidentifizierung (CWR), um Vorhersagen aus einer globalen Perspektive zu korrigieren. Dieses Framework basiert ausschließlich auf dem gefrorenen CLIP und verbessert dessen Leistung bei der multiklassen-Klassifikation auf verschiedenen Benchmarks erheblich, ohne datensatzspezifisches Training. Darüber hinaus erweitern wir ihre Anwendung auf die nachgelagerte Aufgabe, nämlich schwach überwachte semantische Segmentierung (WSSS) mit generierten Tags als bildbasierte Pseudolabels. Experimente zeigen, dass dieses classify-then-segment Paradigma andere annotierungslose Segmentierungsmethoden deutlich übertreffen kann und die Effektivität der generierten Tags bestätigt. Unser Code ist unter https://github.com/linyq2117/TagCLIP verfügbar.