Mehrfachetikettierte Clusterdiskriminierung für das Lernen visueller Repräsentationen

Contrastive Language-Image Pre-Training (CLIP) hat kürzlich durch überlegene Merkmalsrepräsentationen, die durch kontrastives Bild-Text-Lernen ermöglicht werden, Erfolge in verschiedenen Aufgaben gezeigt. Allerdings kann die von CLIP verwendete Instanzdiskriminierungsmethode die semantische Struktur der Trainingsdaten kaum kodieren. Um diese Einschränkung zu bewältigen, wurde Clusterdiskriminierung durch iteratives Clusterverteilung und Klassifikation vorgeschlagen. Dennoch definieren die meisten Clusterdiskriminierungsansätze für jedes Bild nur ein einzelnes Pseudolabel und ignorieren dabei Mehrfachlabelsignale im Bild. In dieser Arbeit schlagen wir eine neuartige Mehrfachlabel-Clusterdiskriminierungsmethode vor, die als MLCD bezeichnet wird, um das Lernen von Repräsentationen zu verbessern. Im Clustering-Schritt gruppieren wir zunächst den groß angelegten LAION-400M-Datensatz in einer Million Zentren basierend auf vorab bereitgestellten Einbettungsmerkmalen. Angesichts der Tatsache, dass natürliche Bilder häufig mehrere visuelle Objekte oder Attribute enthalten, wählen wir die mehreren nächsten Zentren als zusätzliche Klassenlabels aus. Im Diskriminations-Schritt entwickeln wir einen neuen Mehrfachlabel-Klassifikationsverlust, der Verluste elegant von positiven Klassen und negativen Klassen trennt und Unklarheiten an der Entscheidungsgrenze reduziert. Wir verifizieren die vorgeschlagene Mehrfachlabel-Clusterdiskriminierungsmethode durch Experimente mit Modellen verschiedener Größen und Vortrainingsdatensätzen. Die experimentellen Ergebnisse zeigen, dass unsere Methode den Stand der Technik in mehreren nachgelagerten Aufgaben wie Linearer Probenahme, Nullschuss-Klassifikation und Bild-Text-Retrieval erreicht. Der Quellcode und die Modelle wurden unter https://github.com/deepglint/unicom veröffentlicht.