2 个月前

从像素生成预训练

{Mark Chen, Jeff Wu, Rewon Child, Ilya Sutskever, David Luan, Alec Radford, Heewoo Jun, Prafulla Dhariwal}

摘要

受自然语言处理中无监督表示学习进展的启发，我们探讨了类似模型是否能够为图像学习到有效的表示。我们训练了一个序列Transformer模型，使其以自回归方式预测像素值，且未引入任何关于二维输入结构的先验知识。尽管仅在无标签的低分辨率ImageNet数据集上进行训练，我们发现，一个规模相当于GPT-2的模型，在线性探测（linear probing）、微调（fine-tuning）以及低数据量分类任务中均能学习到强大的图像表示。在CIFAR-10数据集上，采用线性探测方法达到了96.3%的准确率，超越了监督学习的Wide ResNet模型；而在完整微调后，准确率提升至99.0%，与当前最优的监督预训练模型表现相当。此外，一个规模更大的模型在ImageNet与网络图像混合数据集上进行训练，其线性探测性能在ImageNet上已达到72.0%的top-1准确率，表现出与自监督学习基准方法相竞争的水平。