Selbstüberwachtes Lernen prätextunabhängiger Darstellungen

Das Ziel des selbstüberwachten Lernens aus Bildern besteht darin, semantisch sinnvolle Bildrepräsentationen durch Vorläuferaufgaben zu konstruieren, die keine semantischen Annotationen für eine große Menge an Trainingsbildern erfordern. Viele Vorläuferaufgaben führen zu Repräsentationen, die kovariant gegenüber Bildtransformationen sind. Wir argumentieren, dass semantische Repräsentationen vielmehr invariant gegenüber solchen Transformationen sein sollten. Insbesondere entwickeln wir die Methode Pretext-Invariant Representation Learning (PIRL, ausgesprochen „pearl“), die invarianten Repräsentationen auf Basis von Vorläuferaufgaben lernt. Wir setzen PIRL mit einer häufig verwendeten Vorläuferaufgabe ein, die darin besteht, Puzzles aus Bildteilen zu lösen. Wir stellen fest, dass PIRL die semantische Qualität der gelernten Bildrepräsentationen erheblich verbessert. Unser Ansatz erreicht auf mehreren etablierten Benchmarks für das selbstüberwachte Lernen aus Bildern eine neue State-of-the-Art-Leistung. Trotz der vollständig unsupervisierten Natur übertrifft PIRL die Leistung von überwachtem Vortraining bei der Lernung von Bildrepräsentationen für die Objekterkennung. Insgesamt zeigen unsere Ergebnisse das hohe Potenzial des selbstüberwachten Lernens von Bildrepräsentationen mit guten Invarianzeigenschaften.