Command Palette
Search for a command to run...
Die Grenzen selbstüberwachter ResNets ausreizen: Können wir das überwachte Lernen ohne Labels auf ImageNet überbieten?
Die Grenzen selbstüberwachter ResNets ausreizen: Können wir das überwachte Lernen ohne Labels auf ImageNet überbieten?
Nenad Tomasev Ioana Bica Brian McWilliams Lars Buesing Razvan Pascanu Charles Blundell Jovana Mitrovic
Zusammenfassung
Trotz der jüngsten Fortschritte selbstüberwachter Methoden in der Repräsentationslernung mit Residual-Netzen erzielen diese weiterhin eine unterdurchschnittliche Leistung im Vergleich zu überwachten Lernansätzen auf dem ImageNet-Klassifizierungsbenchmark, was ihre Anwendbarkeit in leistungsrelevanten Szenarien einschränkt. Aufbauend auf vorherigen theoretischen Erkenntnissen aus ReLIC [Mitrovic et al., 2021] integrieren wir zusätzliche induktive Voreingenommenheiten in das selbstüberwachte Lernen. Wir stellen eine neue Methode für selbstüberwachtes Repräsentationslernen, ReLICv2, vor, die eine explizite Invarianzverlustfunktion mit einem kontrastiven Ziel über eine Vielzahl sorgfältig konstruierter Datensichten kombiniert, um die Lernung von spuriösen Korrelationen zu vermeiden und informativere Repräsentationen zu erzielen. ReLICv2 erreicht eine Top-1-Accuracy von 77,1% auf ImageNet bei linearer Evaluierung auf einem ResNet50 und verbessert damit den vorherigen Stand der Technik um absolut +1,5%; bei größeren ResNet-Modellen erzielt ReLICv2 bis zu 80,6%, wodurch vorherige selbstüberwachte Ansätze um bis zu +2,3% übertroffen werden. Besonders hervorzuheben ist, dass ReLICv2 die erste Methode des unsupervisierten Repräsentationslernens ist, die in einer fairen, wie für wie-Bewertung über eine Reihe von ResNet-Architekturen hinweg konsistent die überwachte Baseline schlägt. Mit ReLICv2 lernen wir zudem robusterere und transferierbarere Repräsentationen, die sich sowohl bei der Bildklassifikation als auch bei der semantischen Segmentierung besser außerhalb der Trainingsverteilung generalisieren als frühere Ansätze. Schließlich zeigen wir, dass ReLICv2 – trotz Verwendung von ResNet-Encodern – mit modernsten selbstüberwachten Vision-Transformern vergleichbare Ergebnisse erzielt.