HyperAIHyperAI

Command Palette

Search for a command to run...

Pré-entraînement génératif à partir de pixels

Mark Chen Jeff Wu Rewon Child Ilya Sutskever David Luan Alec Radford Heewoo Jun Prafulla Dhariwal

Résumé

Inspirés par les progrès réalisés dans l’apprentissage non supervisé de représentations pour le langage naturel, nous examinons si des modèles similaires peuvent apprendre des représentations utiles pour les images. Nous entraînons un Transformer séquentiel pour prédire de manière auto-régressive les pixels, sans intégrer de connaissance structurale 2D de l’entrée. Malgré un entraînement sur ImageNet à faible résolution sans étiquettes, nous constatons qu’un modèle de taille équivalente à GPT-2 apprend des représentations d’images puissantes, mesurées par des évaluations basées sur l’enquête linéaire (linear probing), le fine-tuning et la classification avec peu de données. Sur CIFAR-10, nous atteignons une précision de 96,3 % avec une enquête linéaire, surpassant un Wide ResNet supervisé, et une précision de 99,0 % après un fine-tuning complet, égalant les meilleurs modèles pré-entraînés supervisés. Un modèle encore plus grand entraîné sur un mélange d’ImageNet et d’images issues du web atteint des performances compétitives par rapport aux références auto-supervisées sur ImageNet, obtenant une précision top-1 de 72,0 % sur une enquête linéaire de nos représentations.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp