L'efficacité de la pré-préformation MAE pour la préformation à l'échelle du milliard

Ce document réexamine le paradigme standard de pré-entraînement suivi d'un affinage (fine-tuning) utilisé en vision par ordinateur pour les tâches de reconnaissance visuelle. Généralement, les modèles fondamentaux de pointe sont pré-entraînés à l'aide de grands ensembles de données supervisés (faiblement) contenant des milliards d'images. Nous introduisons une étape supplémentaire de pré-pré-entraînement qui est simple et utilise la technique d'auto-supervision MAE (Masked Autoencoder) pour initialiser le modèle. Bien que MAE n'ait été démontré jusqu'à présent que comme évoluant avec la taille des modèles, nous constatons qu'il évolue également avec la taille du jeu de données d'entraînement. Ainsi, notre pré-pré-entraînement basé sur MAE s'adapte à la fois à la taille du modèle et à celle des données, ce qui le rend applicable pour l'entraînement de modèles fondamentaux. Le pré-pré-entraînement améliore constamment tant la convergence du modèle que les performances de transfert en aval sur une gamme de tailles de modèles (de millions à des milliards de paramètres) et de tailles d'ensembles de données (de millions à des milliards d'images). Nous mesurons l'efficacité du pré-pré-entraînement sur 10 différentes tâches de reconnaissance visuelle couvrant la classification d'images, la reconnaissance vidéo, la détection d'objets, la classification à faible nombre d'exemples et la reconnaissance sans exemple. Notre plus grand modèle atteint des résultats inédits dans l'état de l'art sur iNaturalist-18 (91,7 %), ImageNet-ReaL (91,1 %), ImageNet-1k en un seul exemple (63,6 %), et le transfert sans exemple sur Food-101 (96,2 %). Notre étude révèle que l'initialisation du modèle joue un rôle significatif, même pour un pré-entraînement à l'échelle du web avec des milliards d'images, et nos modèles sont disponibles publiquement.