Momentum Contrast für die selbstüberwachte visuelle Repräsentationslernen

Wir präsentieren Momentum Contrast (MoCo) für das selbstlernende visuelle Repräsentationslernen. Aus der Perspektive des kontrastiven Lernens als Wörterbuchabfrage bauen wir ein dynamisches Wörterbuch mit einer Warteschlange und einem beweglich gemittelten Encoder auf. Dadurch lässt sich ein großes und konsistentes Wörterbuch in Echtzeit erstellen, was das kontrastive selbstlernende Lernen fördert. MoCo erzielt wettbewerbsfähige Ergebnisse beim gängigen Linearprotokoll für die ImageNet-Klassifikation. Noch wichtiger ist, dass die durch MoCo erlernten Repräsentationen gut auf nachgeschaltete Aufgaben übertragbar sind. MoCo schlägt seine vergleichbare vorgelernende, überwachte Variante in sieben Detektions- und Segmentierungsaufgaben auf den Datensätzen PASCAL VOC, COCO und anderen, manchmal mit deutlichen Vorsprüngen. Dies deutet darauf hin, dass die Lücke zwischen selbstlernendem und überwachtem Repräsentationslernen in vielen visuellen Aufgaben weitgehend geschlossen wurde.