HyperAIHyperAI
vor 3 Monaten

Maskierte Siamesische Netzwerke für label-effizientes Lernen

Mahmoud Assran, Mathilde Caron, Ishan Misra, Piotr Bojanowski, Florian Bordes, Pascal Vincent, Armand Joulin, Michael Rabbat, Nicolas Ballas
Maskierte Siamesische Netzwerke für label-effizientes Lernen
Abstract

Wir stellen Masked Siamese Networks (MSN) vor, einen selbstüberwachten Lernansatz zur Entwicklung von Bildrepräsentationen. Unser Ansatz passt die Repräsentation einer Bildansicht, die zufällig maskierte Patchs enthält, der Repräsentation des ursprünglichen, unmaskierten Bildes an. Diese selbstüberwachte Vortrainierungsstrategie ist besonders skalierbar, wenn sie auf Vision Transformers angewendet wird, da lediglich die nicht maskierten Patchs durch das Netzwerk verarbeitet werden. Dadurch verbessern MSNs die Skalierbarkeit von Joint-Embedding-Architekturen und erzeugen Repräsentationen mit hohem semantischen Gehalt, die bei der Low-Shot-Bildklassifikation konkurrenzfähig abschneiden. Beispielsweise erreicht unser Basis-MSN-Modell auf ImageNet-1K mit nur 5.000 annotierten Bildern eine Top-1-Accuracy von 72,4 % und mit nur 1 % der ImageNet-1K-Labels eine Accuracy von 75,7 %, was eine neue State-of-the-Art-Leistung für selbstüberwachten Lernansätze auf diesem Benchmark darstellt. Unser Code ist öffentlich verfügbar.