12日前

ピクセルからの生成型事前学習

{Mark Chen, Jeff Wu, Rewon Child, Ilya Sutskever, David Luan, Alec Radford, Heewoo Jun, Prafulla Dhariwal}
ピクセルからの生成型事前学習
要約

自然言語における教師なし表現学習の進展に触発されて、同様のモデルが画像に対して有用な表現を学習できるかどうかを検討した。我々は、2次元入力構造に関する知識を一切用いずに、シーケンス型Transformerを用いてピクセルを自己回帰的に予測する学習を実施した。ラベルのない低解像度ImageNet上で訓練されたGPT-2規模のモデルは、線形プローブ、微調整(fine-tuning)、および少量データ分類といった評価指標に基づき、強力な画像表現を学習していることが明らかになった。CIFAR-10においては、線形プローブで96.3%の精度を達成し、教師ありWide ResNetを上回り、完全な微調整では99.0%の精度を記録し、最上位の教師あり事前学習モデルと同等の性能を示した。さらに、ImageNetとウェブ画像の混合データ上で訓練されたより大きなモデルは、ImageNetにおける自己教師付き学習のベンチマークと競合する性能を示し、特徴量の線形プローブにおいて72.0%のトップ1精度を達成した。

ピクセルからの生成型事前学習 | 最新論文 | HyperAI超神経