Les grands modèles auto-supervisés sont de puissants apprenants semi-supervisés

Un paradigme courant pour apprendre à partir de très peu d'exemples étiquetés tout en tirant le meilleur parti d'une grande quantité de données non étiquetées repose sur un pré-entraînement non supervisé suivi d'un ajustement fin supervisé. Bien que ce paradigme utilise les données non étiquetées de manière indépendante de la tâche — contrairement aux approches classiques d'apprentissage semi-supervisé en vision par ordinateur — nous démontrons qu'il s'avère étonnamment efficace pour l'apprentissage semi-supervisé sur ImageNet. Un élément clé de notre approche réside dans l'utilisation de réseaux profonds et larges (« big networks ») durant à la fois le pré-entraînement et l'ajustement fin. Nous observons que, plus le nombre d'étiquettes est faible, plus cet approche (l'utilisation indépendante de la tâche des données non étiquetées) bénéficie d'un réseau plus grand. Après l'ajustement fin, le réseau volumineux peut être encore amélioré et compressé en un modèle bien plus petit, avec une perte négligeable en précision de classification, en utilisant une seconde fois les exemples non étiquetés, mais cette fois de manière spécifique à la tâche. L'algorithme proposé d'apprentissage semi-supervisé peut être résumé en trois étapes : pré-entraînement non supervisé d’un modèle ResNet de grande taille via SimCLRv2, ajustement fin supervisé sur un petit nombre d’exemples étiquetés, puis distillation à l’aide des exemples non étiquetés pour affiner et transférer les connaissances spécifiques à la tâche. Cette procédure atteint une précision top-1 de 73,9 % sur ImageNet en utilisant uniquement 1 % des étiquettes (moins de 13 images étiquetées par classe), soit une amélioration de facteur 10 en efficacité des étiquettes par rapport à l’état de l’art précédent. Avec 10 % des étiquettes, un ResNet-50 entraîné avec notre méthode atteint une précision top-1 de 77,5 %, surpassant ainsi l’entraînement supervisé standard utilisant l’ensemble des étiquettes.