il y a 2 mois

Apprentissage de modèles visuels transférables à partir de la supervision par le langage naturel

Radford, Alec ; Kim, Jong Wook ; Hallacy, Chris ; Ramesh, Aditya ; Goh, Gabriel ; Agarwal, Sandhini ; Sastry, Girish ; Askell, Amanda ; Mishkin, Pamela ; Clark, Jack ; Krueger, Gretchen ; Sutskever, Ilya

Voir les détails de l'article

Apprentissage de modèles visuels transférables à partir de la supervision par le langage naturel

Résumé

Les systèmes de vision par ordinateur les plus avancés sont formés pour prédire un ensemble fixe de catégories d'objets prédéterminées. Cette forme limitée de supervision restreint leur généralité et leur utilisation, car des données étiquetées supplémentaires sont nécessaires pour spécifier tout autre concept visuel. L'apprentissage direct à partir de textes bruts sur des images est une alternative prometteuse qui exploite une source beaucoup plus large de supervision. Nous démontrons que la tâche simple de pré-entraînement consistant à prédire quelle légende correspond à quelle image est un moyen efficace et évolutif d'apprendre des représentations d'images SOTA (State-of-the-Art) à partir de zéro sur un ensemble de données de 400 millions de paires (image, texte) collectées sur Internet. Après le pré-entraînement, le langage naturel est utilisé pour référencer les concepts visuels appris (ou en décrire de nouveaux), permettant ainsi le transfert zéro-shot du modèle vers des tâches downstream. Nous évaluons les performances de cette approche en effectuant des benchmarks sur plus de 30 jeux de données existants en vision par ordinateur, couvrant des tâches telles que la reconnaissance optique de caractères (OCR), la reconnaissance d'actions dans les vidéos, la géolocalisation et divers types de classification d'objets fine-grained. Le modèle se transpose non trivialement à la plupart des tâches et est souvent compétitif avec une ligne de base entièrement supervisée sans nécessiter aucune formation spécifique au jeu de données. Par exemple, nous obtenons une précision équivalente à celle du ResNet-50 original sur ImageNet en mode zéro-shot sans avoir besoin d'utiliser aucune des 1,28 million d'exemples d'entraînement sur lesquels il a été formé. Nous mettons notre code et les poids du modèle pré-entraîné à disposition sur https://github.com/OpenAI/CLIP.