HyperAIHyperAI

Command Palette

Search for a command to run...

Generative Pretraining from Pixels

Mark Chen Jeff Wu Rewon Child Ilya Sutskever David Luan Alec Radford Heewoo Jun Prafulla Dhariwal

Zusammenfassung

Angeregt durch Fortschritte im unsupervised Representation Learning für natürliche Sprache untersuchen wir, ob ähnliche Modelle auch nützliche Darstellungen für Bilder lernen können. Wir trainieren ein Sequenz-Transformer-Modell, um pixelweise vorherzusagen, ohne Wissen über die zweidimensionale Struktur der Eingabebilder einzubeziehen. Trotz des Trainings auf niedrigauflösendem ImageNet ohne Labels zeigen wir, dass ein Modell im GPT-2-Größenordnung starke Bildrepräsentationen erlernt, wie durch Linear Probing, Fine-Tuning und Klassifikation bei geringen Datenmengen bestätigt wird. Auf CIFAR-10 erreichen wir mit einem Linear Probe eine Genauigkeit von 96,3 %, was einen überwachten Wide ResNet übertrifft, und bei vollständigem Fine-Tuning 99,0 %, was den besten überwachten vortrainierten Modellen entspricht. Ein noch größeres Modell, das auf einer Mischung aus ImageNet und Webbildern trainiert wurde, ist auf ImageNet mit selbstüberwachten Benchmarks konkurrenzfähig und erreicht bei einem Linear Probe unserer Merkmale eine Top-1-Genauigkeit von 72,0 %.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp