Ensembles profonds pour l'apprentissage par transfert à faible données

Dans le régime à faibles données, il est difficile d’entraîner des modèles supervisés performants à partir de zéro. Les praticiens s’orientent alors vers des modèles pré-entraînés, exploitant ainsi l’apprentissage par transfert. L’ensembling constitue une approche à la fois empiriquement et théoriquement attrayante pour construire des modèles prédictifs puissants, mais l’approche dominante — entraîner plusieurs réseaux profonds avec des initialisations aléatoires différentes — entre en conflit avec le besoin d’exploiter des poids pré-entraînés. Dans ce travail, nous étudions différentes méthodes pour construire des ensembles à partir de modèles pré-entraînés. Nous montrons que la nature même du pré-entraînement constitue une source efficace de diversité, et proposons un algorithme pratique permettant d’identifier de manière efficace un sous-ensemble de modèles pré-entraînés adapté à tout jeu de données cible. L’approche est simple : utiliser la précision du plus proche voisin pour classer les modèles pré-entraînés, ajuster finement les meilleurs d’entre eux par une petite exploration de hyperparamètres, puis construire de manière gloutonne un ensemble visant à minimiser l’entropie croisée sur le jeu de validation. Évaluée conjointement avec des baselines performantes sur 19 tâches cibles différentes (Visual Task Adaptation Benchmark), cette méthode atteint des performances de pointe avec un budget d’inférence bien plus faible, même lorsqu’elle sélectionne parmi plus de 2 000 modèles pré-entraînés. Nous évaluons également nos ensembles sur des variantes d’ImageNet et démontrons une amélioration de la robustesse face aux décalages de distribution.