Lois de mise à l'échelle reproductibles pour l'apprentissage contrastif langage-image

L'élargissement des réseaux de neurones a conduit à des performances remarquables sur une large gamme de tâches. De plus, les performances suivent souvent des lois d'échelle fiables en fonction de la taille de l'ensemble d'entraînement, de la taille du modèle et des ressources informatiques, ce qui offre des conseils précieux alors que les expériences à grande échelle deviennent de plus en plus coûteuses. Cependant, les travaux précédents sur les lois d'échelle ont principalement utilisé des données et des modèles privés ou se sont concentrés sur l'apprentissage unimodal du langage ou de la vision.Pour remédier à ces limitations, nous étudions les lois d'échelle pour l'apprentissage préalable par contraste entre le langage et les images (CLIP) avec le jeu de données public LAION et le dépôt open-source OpenCLIP. Nos expériences à grande échelle impliquent des modèles entraînés sur jusqu'à deux milliards de paires image-texte et identifient une loi d'échelle puissance pour plusieurs tâches en aval, notamment la classification sans supervision, la recherche d'information, l'exploration linéaire et l'affinage end-to-end.Nous constatons que la distribution d'entraînement joue un rôle clé dans les lois d'échelle, car malgré des architectures de modèle identiques et des recettes d'entraînement similaires, les modèles OpenAI et OpenCLIP présentent un comportement d'échelle différent. Nous mettons en open source notre flux de travail d'évaluation et tous nos modèles, y compris les plus grands modèles CLIP publics, afin de garantir la reproductibilité et rendre la recherche sur les lois d'échelle plus accessible. Le code source et les instructions pour reproduire cette étude seront disponibles sur https://github.com/LAION-AI/scaling-laws-openclip.