Les modèles visuels sont plus robustes et plus équitables lorsqu’ils sont préentraînés sur des images non curatrices sans supervision

L’apprentissage auto-supervisé discriminatif permet d’entraîner des modèles sur n’importe quel ensemble aléatoire d’images issues d’internet, et de potentiellement extraire des informations saillantes utiles à la différenciation entre les images. Appliqué à ImageNet, cette approche conduit à des caractéristiques centrées sur les objets, qui rivalisent avec les caractéristiques supervisées sur la plupart des tâches postérieures centrées sur les objets. Dans ce travail, nous nous interrogeons sur la possibilité d’utiliser cette capacité pour apprendre toute information saillante et plus représentative présente dans un ensemble diversifié et illimité d’images provenant de tout le globe. Pour ce faire, nous entraînons nos modèles sur des milliards d’images aléatoires, sans aucune prétraitement des données ni hypothèse a priori sur ce que le modèle doit apprendre. Nous élargissons la taille de notre modèle jusqu’à atteindre 10 milliards de paramètres densément connectés, afin d’éviter le sous-apprentissage sur un volume de données aussi important. Nous étudions et validons de manière exhaustive les performances de notre modèle sur plus de 50 benchmarks, incluant la justesse (fairness), la robustesse aux décalages de distribution, la diversité géographique, la reconnaissance fine, la détection de copies d’images, ainsi que de nombreuses bases de données de classification d’images. Le modèle obtenu ne capture pas seulement efficacement des informations sémantiques, mais aussi des informations sur les styles artistiques, tout en apprenant des éléments saillants tels que des géolocalisations ou des embeddings multilingues à partir uniquement du contenu visuel. Plus important encore, nous constatons que ce type de modèle est plus robuste, plus équitable, moins nuisible et moins biaisé que les modèles supervisés ou que ceux entraînés sur des jeux de données centrés sur les objets comme ImageNet.