HyperAIHyperAI

Command Palette

Search for a command to run...

TagCLIP: Ein Framework von Lokal zu Global, um die offene Vokabular-Multi-Label-Klassifizierung von CLIP ohne Training zu verbessern

Yuqi Lin Minghao Chen Kaipeng Zhang Hengjia Li Mingming Li Zheng Yang Dongqin Lv Binbin Lin Haifeng Liu Deng Cai

Zusammenfassung

Das Contrastive Language-Image Pre-training (CLIP) hat beeindruckende Fähigkeiten in der offenen Vokabularklassifikation gezeigt. Das Klassen-Token im Bildencoder wird trainiert, um globale Merkmale zu erfassen, die verschiedene Textbeschreibungen unter Aufsicht des kontrastiven Verlustes unterscheiden, was es für die Einzelklassifikation sehr effektiv macht. Allerdings zeigt es bei multiklassigen Datensätzen eine schlechte Leistung, da das globale Merkmal tendenziell von der prominentesten Klasse dominiert wird und die kontrastive Natur der Softmax-Operation dies verschärft. In dieser Studie beobachten wir, dass die Ergebnisse der multiklassen-Klassifikation stark von diskriminativen lokalen Merkmalen abhängen, diese aber von CLIP übersehen werden. Daher analysieren wir den Erhalt von patchweisen räumlichen Informationen in CLIP und schlagen einen lokal-zu-global-Framework zur Gewinnung von Bildtags vor. Dieses Framework besteht aus drei Schritten: (1) Patch-Level-Klassifikation zur Gewinnung grober Scores; (2) Modul zur Doppelmasking-Aufmerksamkeitsverfeinerung (DMAR), um die groben Scores zu verfeinern; (3) Modul zur klassenspezifischen Wiederidentifizierung (CWR), um Vorhersagen aus einer globalen Perspektive zu korrigieren. Dieses Framework basiert ausschließlich auf dem gefrorenen CLIP und verbessert dessen Leistung bei der multiklassen-Klassifikation auf verschiedenen Benchmarks erheblich, ohne datensatzspezifisches Training. Darüber hinaus erweitern wir ihre Anwendung auf die nachgelagerte Aufgabe, nämlich schwach überwachte semantische Segmentierung (WSSS) mit generierten Tags als bildbasierte Pseudolabels. Experimente zeigen, dass dieses classify-then-segment Paradigma andere annotierungslose Segmentierungsmethoden deutlich übertreffen kann und die Effektivität der generierten Tags bestätigt. Unser Code ist unter https://github.com/linyq2117/TagCLIP verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp