HyperAIHyperAI
il y a 12 jours

Pré-entraînement génératif à partir de pixels

{Mark Chen, Jeff Wu, Rewon Child, Ilya Sutskever, David Luan, Alec Radford, Heewoo Jun, Prafulla Dhariwal}
Pré-entraînement génératif à partir de pixels
Résumé

Inspirés par les progrès réalisés dans l’apprentissage non supervisé de représentations pour le langage naturel, nous examinons si des modèles similaires peuvent apprendre des représentations utiles pour les images. Nous entraînons un Transformer séquentiel pour prédire de manière auto-régressive les pixels, sans intégrer de connaissance structurale 2D de l’entrée. Malgré un entraînement sur ImageNet à faible résolution sans étiquettes, nous constatons qu’un modèle de taille équivalente à GPT-2 apprend des représentations d’images puissantes, mesurées par des évaluations basées sur l’enquête linéaire (linear probing), le fine-tuning et la classification avec peu de données. Sur CIFAR-10, nous atteignons une précision de 96,3 % avec une enquête linéaire, surpassant un Wide ResNet supervisé, et une précision de 99,0 % après un fine-tuning complet, égalant les meilleurs modèles pré-entraînés supervisés. Un modèle encore plus grand entraîné sur un mélange d’ImageNet et d’images issues du web atteint des performances compétitives par rapport aux références auto-supervisées sur ImageNet, obtenant une précision top-1 de 72,0 % sur une enquête linéaire de nos représentations.