Was macht gute Ansichten für das kontrastive Lernen aus?

Die kontrastive Lernmethode zwischen mehreren Datenansichten hat in jüngster Zeit bahnbrechende Ergebnisse im Bereich des selbstüberwachten Darstellungslernens erzielt. Trotz dieses Erfolgs wurde der Einfluss verschiedener Ansichtswahlstrategien bisher weniger gründlich untersucht. In dieser Arbeit führen wir eine theoretische und empirische Analyse durch, um die Bedeutung der Ansichtsauswahl besser zu verstehen, und argumentieren, dass der gegenseitige Informationsgehalt (Mutual Information, MI) zwischen den Ansichten reduziert werden sollte, während gleichzeitig informationsrelevante Merkmale für die Aufgabe erhalten bleiben müssen. Um diese Hypothese zu überprüfen, entwickeln wir unsupervisierte und halb-supervisierte Rahmenwerke, die effektive Ansichten lernen, indem sie gezielt die MI zwischen diesen minimieren. Zudem betrachten wir Datenaugmentation als eine Methode zur Reduktion der MI und zeigen, dass eine verstärkte Datenaugmentation tatsächlich zu einer Verringerung der MI führt und die Genauigkeit bei nachfolgenden Klassifizierungsaufgaben verbessert. Als Nebenprodukt erreichen wir eine neue State-of-the-Art-Genauigkeit beim unsupervisierten Vortrainieren für die ImageNet-Klassifizierung (73 % Top-1-Lineare Auslesung mit einem ResNet-50). Darüber hinaus übertrifft die Übertragung unserer Modelle auf die Objektdetektion im PASCAL VOC und die Instanzsegmentierung im COCO-Kontext deutlich die Ergebnisse von supervisiertem Vortraining. Code: http://github.com/HobbitLong/PyContrast