HyperAIHyperAI
vor 11 Tagen

Selbstüberwachtes visuelles Repräsentationslernen mit semantischer Gruppierung

Xin Wen, Bingchen Zhao, Anlin Zheng, Xiangyu Zhang, Xiaojuan Qi
Selbstüberwachtes visuelles Repräsentationslernen mit semantischer Gruppierung
Abstract

In diesem Artikel befassen wir uns mit dem Problem der Lernung visueller Repräsentationen aus unlabeled, szenezentrierten Daten. Bestehende Ansätze haben das Potenzial der zugrunde liegenden komplexen Struktur in szenezentrierten Daten aufgezeigt; dennoch beruhen sie häufig auf handgefertigten Objectness-Priorisierungen oder spezialisierten Vorab-Aufgaben, um ein Lernframework zu etablieren, was die Generalisierbarkeit beeinträchtigen kann. Stattdessen schlagen wir ein kontrastives Lernen aus datengetriebenen semantischen Slots vor, genannt SlotCon, zur gleichzeitigen semantischen Gruppierung und Repräsentationslernung. Die semantische Gruppierung erfolgt durch die Zuweisung von Pixeln zu einer Menge lernbarer Prototypen, die sich durch aufmerksamkeitsbasiertes Pooling über die Merkmale an jedes einzelne Beispiel anpassen und dabei neue Slots bilden. Auf Basis der gelernten datenabhängigen Slots wird eine kontrastive Zielfunktion für die Repräsentationslernung eingesetzt, welche die Unterscheidbarkeit der Merkmale erhöht und gleichzeitig die Gruppierung semantisch kohärenter Pixel fördert. Im Vergleich zu früheren Ansätzen umgeht unsere Methode durch die gleichzeitige Optimierung der beiden gekoppelten Ziele der semantischen Gruppierung und des kontrastiven Lernens die Nachteile handgefertigter Priorisierungen und ist in der Lage, Objekt-/Gruppen-level-Repräsentationen aus szenezentrierten Bildern zu lernen. Experimente zeigen, dass unser Ansatz komplexe Szenen effektiv in semantische Gruppen zerlegt, um die Merkmalslernung zu unterstützen, und erhebliche Vorteile für nachgeschaltete Aufgaben liefert, darunter Objektdetektion, Instanzsegmentierung und semantische Segmentierung. Der Quellcode ist verfügbar unter: https://github.com/CVMI-Lab/SlotCon.

Selbstüberwachtes visuelles Repräsentationslernen mit semantischer Gruppierung | Neueste Forschungsarbeiten | HyperAI