8ヶ月前

ディープラーニング

コンピュータビジョン

Mark Chen Jeff Wu Rewon Child Ilya Sutskever David Luan Alec Radford Heewoo Jun Prafulla Dhariwal

概要

自然言語における教師なし表現学習の進展に触発されて、同様のモデルが画像に対して有用な表現を学習できるかどうかを検討した。我々は、2次元入力構造に関する知識を一切用いずに、シーケンス型Transformerを用いてピクセルを自己回帰的に予測する学習を実施した。ラベルのない低解像度ImageNet上で訓練されたGPT-2規模のモデルは、線形プローブ、微調整（fine-tuning）、および少量データ分類といった評価指標に基づき、強力な画像表現を学習していることが明らかになった。CIFAR-10においては、線形プローブで96.3％の精度を達成し、教師ありWide ResNetを上回り、完全な微調整では99.0％の精度を記録し、最上位の教師あり事前学習モデルと同等の性能を示した。さらに、ImageNetとウェブ画像の混合データ上で訓練されたより大きなモデルは、ImageNetにおける自己教師付き学習のベンチマークと競合する性能を示し、特徴量の線形プローブにおいて72.0％のトップ1精度を達成した。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ディープラーニング

コンピュータビジョン

Mark Chen Jeff Wu Rewon Child Ilya Sutskever David Luan Alec Radford Heewoo Jun Prafulla Dhariwal

概要

自然言語における教師なし表現学習の進展に触発されて、同様のモデルが画像に対して有用な表現を学習できるかどうかを検討した。我々は、2次元入力構造に関する知識を一切用いずに、シーケンス型Transformerを用いてピクセルを自己回帰的に予測する学習を実施した。ラベルのない低解像度ImageNet上で訓練されたGPT-2規模のモデルは、線形プローブ、微調整（fine-tuning）、および少量データ分類といった評価指標に基づき、強力な画像表現を学習していることが明らかになった。CIFAR-10においては、線形プローブで96.3％の精度を達成し、教師ありWide ResNetを上回り、完全な微調整では99.0％の精度を記録し、最上位の教師あり事前学習モデルと同等の性能を示した。さらに、ImageNetとウェブ画像の混合データ上で訓練されたより大きなモデルは、ImageNetにおける自己教師付き学習のベンチマークと競合する性能を示し、特徴量の線形プローブにおいて72.0％のトップ1精度を達成した。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

ピクセルからの生成型事前学習 | 記事 | HyperAI超神経