Biais d'échantillonnage dans la classification active profonde : une étude empirique

Le coût croissant et le temps nécessaires pour l’étiquetage des données et l’entraînement des modèles constituent des goulets d’étranglement majeurs dans l’entraînement des réseaux de neurones profonds (DNN) sur de grands ensembles de données. L’identification de sous-échantillons représentatifs plus petits, par des stratégies telles que l’apprentissage actif, peut aider à atténuer ces contraintes. Les travaux antérieurs sur l’apprentissage actif en traitement du langage naturel (NLP) ont mis en évidence le problème du biais d’échantillonnage dans les échantillons obtenus par interrogation basée sur l’incertitude, et ont proposé des approches coûteuses pour y remédier. À l’aide d’une étude empirique extensive, nous démontrons que la sélection d’ensembles actifs basée sur l’entropie a posteriori des modèles profonds, tels que FastText.zip (FTZ), est robuste aux biais d’échantillonnage et aux différentes choix algorithmiques (taille des requêtes, stratégies de sélection), contrairement à ce que suggère la littérature classique. Nous montrons également que la stratégie de requête basée sur FTZ produit des ensembles d’échantillons similaires à ceux obtenus par des approches plus sophistiquées (par exemple, les réseaux ensemblistes). Enfin, nous établissons l’efficacité des échantillons sélectionnés en construisant de petits ensembles de données de haute qualité, puis en les utilisant pour entraîner rapidement et à faible coût de grands modèles. Sur la base de ces résultats, nous proposons une base simple pour la classification textuelle active profonde, qui surpasserait l’état de l’art. Nous estimons que ce travail sera utile et éclairant pour la compression des jeux de données, ainsi que pour des problèmes impliquant des scénarios d’apprentissage actif, semi-supervisé ou en ligne. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/drimpossible/Sampling-Bias-Active-Learning