HyperAIHyperAI

Command Palette

Search for a command to run...

Mehrfachetikettierte Clusterdiskriminierung für das Lernen visueller Repräsentationen

Xiang An; Kaicheng Yang; Xiangzi Dai; Ziyong Feng; Jiankang Deng

Zusammenfassung

Contrastive Language-Image Pre-Training (CLIP) hat kürzlich durch überlegene Merkmalsrepräsentationen, die durch kontrastives Bild-Text-Lernen ermöglicht werden, Erfolge in verschiedenen Aufgaben gezeigt. Allerdings kann die von CLIP verwendete Instanzdiskriminierungsmethode die semantische Struktur der Trainingsdaten kaum kodieren. Um diese Einschränkung zu bewältigen, wurde Clusterdiskriminierung durch iteratives Clusterverteilung und Klassifikation vorgeschlagen. Dennoch definieren die meisten Clusterdiskriminierungsansätze für jedes Bild nur ein einzelnes Pseudolabel und ignorieren dabei Mehrfachlabelsignale im Bild. In dieser Arbeit schlagen wir eine neuartige Mehrfachlabel-Clusterdiskriminierungsmethode vor, die als MLCD bezeichnet wird, um das Lernen von Repräsentationen zu verbessern. Im Clustering-Schritt gruppieren wir zunächst den groß angelegten LAION-400M-Datensatz in einer Million Zentren basierend auf vorab bereitgestellten Einbettungsmerkmalen. Angesichts der Tatsache, dass natürliche Bilder häufig mehrere visuelle Objekte oder Attribute enthalten, wählen wir die mehreren nächsten Zentren als zusätzliche Klassenlabels aus. Im Diskriminations-Schritt entwickeln wir einen neuen Mehrfachlabel-Klassifikationsverlust, der Verluste elegant von positiven Klassen und negativen Klassen trennt und Unklarheiten an der Entscheidungsgrenze reduziert. Wir verifizieren die vorgeschlagene Mehrfachlabel-Clusterdiskriminierungsmethode durch Experimente mit Modellen verschiedener Größen und Vortrainingsdatensätzen. Die experimentellen Ergebnisse zeigen, dass unsere Methode den Stand der Technik in mehreren nachgelagerten Aufgaben wie Linearer Probenahme, Nullschuss-Klassifikation und Bild-Text-Retrieval erreicht. Der Quellcode und die Modelle wurden unter https://github.com/deepglint/unicom veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp