2ヶ月前

自然言語監督から転移可能な視覚モデルを学習する

Radford, Alec ; Kim, Jong Wook ; Hallacy, Chris ; Ramesh, Aditya ; Goh, Gabriel ; Agarwal, Sandhini ; Sastry, Girish ; Askell, Amanda ; Mishkin, Pamela ; Clark, Jack ; Krueger, Gretchen ; Sutskever, Ilya
自然言語監督から転移可能な視覚モデルを学習する
要約

最先端のコンピュータビジョンシステムは、事前に決定された固定の物体カテゴリを予測するために訓練されています。この制限的な教師あり学習形式は、追加のラベル付きデータが必要となるため、その汎用性と利用可能性に制約を与えます。画像に関する生のテキストから直接学習することは、より広範な教師あり情報源を活用する有望な代替手段です。私たちは、どのキャプションがどの画像に対応しているかを予測する単純な前処理タスクが、インターネットから収集した4億組の(画像、テキスト)ペアを使用して、ゼロから最先端の画像表現を効率的かつスケーラブルに学習する方法であることを示しました。前処理後、自然言語は学習済みの視覚概念を参照したり(または新しい概念を説明したり)することで、モデルを下流タスクへのゼロショット転移学習に使用できます。私たちはこの手法の性能を30以上の既存のコンピュータビジョンデータセットでベンチマークテストを行い、OCR(光学文字認識)、ビデオ中の動作認識、地理的位置特定、および多くの種類の細かい物体分類などのタスクについて研究しました。モデルはほとんどのタスクに対して非自明的に転移し、特定のデータセットに対する訓練なしで完全教師あり基準としばしば競争力があります。例えば、ImageNetでのゼロショット精度においては、128万件の訓練例を使用せずに元のResNet-50と同じ精度を達成しています。当社はコードと前処理済みモデルの重みを https://github.com/OpenAI/CLIP で公開しています。