HyperAIHyperAI
vor 12 Tagen

Generative Pretraining from Pixels

{Mark Chen, Jeff Wu, Rewon Child, Ilya Sutskever, David Luan, Alec Radford, Heewoo Jun, Prafulla Dhariwal}
Generative Pretraining from Pixels
Abstract

Angeregt durch Fortschritte im unsupervised Representation Learning für natürliche Sprache untersuchen wir, ob ähnliche Modelle auch nützliche Darstellungen für Bilder lernen können. Wir trainieren ein Sequenz-Transformer-Modell, um pixelweise vorherzusagen, ohne Wissen über die zweidimensionale Struktur der Eingabebilder einzubeziehen. Trotz des Trainings auf niedrigauflösendem ImageNet ohne Labels zeigen wir, dass ein Modell im GPT-2-Größenordnung starke Bildrepräsentationen erlernt, wie durch Linear Probing, Fine-Tuning und Klassifikation bei geringen Datenmengen bestätigt wird. Auf CIFAR-10 erreichen wir mit einem Linear Probe eine Genauigkeit von 96,3 %, was einen überwachten Wide ResNet übertrifft, und bei vollständigem Fine-Tuning 99,0 %, was den besten überwachten vortrainierten Modellen entspricht. Ein noch größeres Modell, das auf einer Mischung aus ImageNet und Webbildern trainiert wurde, ist auf ImageNet mit selbstüberwachten Benchmarks konkurrenzfähig und erreicht bei einem Linear Probe unserer Merkmale eine Top-1-Genauigkeit von 72,0 %.

Generative Pretraining from Pixels | Neueste Forschungsarbeiten | HyperAI