Ähnlichkeitskontrastive Schätzung für Bild- und Videobasiertes Weichkontrastives Selbstüberwachtes Lernen

Kontrastives Repräsentationslernen hat sich als effektive selbstüberwachte Lernmethode für Bilder und Videos erwiesen. Die meisten erfolgreichen Ansätze basieren auf der Noise Contrastive Estimation (NCE) und verwenden unterschiedliche Ansichten einer Instanz als Positive, die mit anderen Instanzen, sogenannten Negativen, kontrastiert werden sollen, die als Rauschen betrachtet werden. Allerdings stammen mehrere Instanzen in einem Datensatz aus derselben Verteilung und teilen grundlegende semantische Informationen. Eine gute Datenrepräsentation sollte Beziehungen zwischen den Instanzen oder semantische Ähnlichkeiten und Unterschiede enthalten, die durch das kontrastive Lernen geschädigt werden, indem alle Negativen als Rauschen betrachtet werden. Um dieses Problem zu umgehen, schlagen wir eine neue Formulierung des kontrastiven Lernens vor, die auf der semantischen Ähnlichkeit zwischen Instanzen basiert und Similarity Contrastive Estimation (SCE) genannt wird. Unser Trainingsziel ist ein weiches kontrastives Ziel, das die Positiven näher zusammenführt und eine kontinuierliche Verteilung schätzt, um Negative basierend auf ihren gelernten Ähnlichkeiten abzustoßen oder anzuziehen. Wir validieren unseren Ansatz empirisch sowohl für Bild- als auch für Videorepräsentationslernen. Wir zeigen, dass SCE bei weniger Vortrainings-Epochen wettbewerbsfähig mit dem aktuellen Stand der Technik im ImageNet-Linearevaluierungsprotokoll performt und dass es sich auf verschiedene nachgelagerte Bildaufgaben verallgemeinern lässt. Zudem zeigen wir, dass SCE bei der Vortrainings-Videorepräsentation erstklassige Ergebnisse erzielt und dass die gelernte Repräsentation sich auf nachgelagerte Videoaufgaben verallgemeinern kann.