Apprentissage actif avec un budget limité : des stratégies opposées conviennent aux budgets élevés et faibles

En étudiant l’apprentissage actif, nous nous concentrons sur la relation entre le nombre d’exemples étiquetés (taille du budget) et les stratégies de requête appropriées. Notre analyse théorique révèle un comportement rappelant une transition de phase : les exemples typiques sont les plus pertinents à requérir lorsque le budget est faible, tandis que les exemples non représentatifs sont préférables lorsque le budget est élevé. Des preuves combinées montrent qu’un phénomène similaire se produit dans les modèles de classification courants. En conséquence, nous proposons TypiClust — une stratégie d’apprentissage actif profond adaptée aux budgets restreints. Une évaluation empirique comparative dans le cadre de l’apprentissage supervisé, menée sur diverses architectures et jeux de données d’images, montre que TypiClust surpasse toutes les autres stratégies d’apprentissage actif dans le régime à faible budget. L’utilisation de TypiClust dans un cadre d’apprentissage semi-supervisé entraîne une amélioration encore plus marquée des performances. En particulier, des méthodes d’apprentissage semi-supervisé de pointe entraînées sur CIFAR-10 avec seulement 10 exemples étiquetés sélectionnés par TypiClust atteignent une précision de 93,2 % — soit une amélioration de 39,4 % par rapport à une sélection aléatoire. Le code est disponible à l’adresse suivante : https://github.com/avihu111/TypiClust.