Generative Pretraining from Pixels

Angeregt durch Fortschritte im unsupervised Representation Learning für natürliche Sprache untersuchen wir, ob ähnliche Modelle auch nützliche Darstellungen für Bilder lernen können. Wir trainieren ein Sequenz-Transformer-Modell, um pixelweise vorherzusagen, ohne Wissen über die zweidimensionale Struktur der Eingabebilder einzubeziehen. Trotz des Trainings auf niedrigauflösendem ImageNet ohne Labels zeigen wir, dass ein Modell im GPT-2-Größenordnung starke Bildrepräsentationen erlernt, wie durch Linear Probing, Fine-Tuning und Klassifikation bei geringen Datenmengen bestätigt wird. Auf CIFAR-10 erreichen wir mit einem Linear Probe eine Genauigkeit von 96,3 %, was einen überwachten Wide ResNet übertrifft, und bei vollständigem Fine-Tuning 99,0 %, was den besten überwachten vortrainierten Modellen entspricht. Ein noch größeres Modell, das auf einer Mischung aus ImageNet und Webbildern trainiert wurde, ist auf ImageNet mit selbstüberwachten Benchmarks konkurrenzfähig und erreicht bei einem Linear Probe unserer Merkmale eine Top-1-Genauigkeit von 72,0 %.