HyperAIHyperAI

Command Palette

Search for a command to run...

Biais d'échantillonnage dans la classification active profonde : une étude empirique

Ameya Prabhu Charles Dognin Maneesh Singh

Résumé

Le coût croissant et le temps nécessaires pour l’étiquetage des données et l’entraînement des modèles constituent des goulets d’étranglement majeurs dans l’entraînement des réseaux de neurones profonds (DNN) sur de grands ensembles de données. L’identification de sous-échantillons représentatifs plus petits, par des stratégies telles que l’apprentissage actif, peut aider à atténuer ces contraintes. Les travaux antérieurs sur l’apprentissage actif en traitement du langage naturel (NLP) ont mis en évidence le problème du biais d’échantillonnage dans les échantillons obtenus par interrogation basée sur l’incertitude, et ont proposé des approches coûteuses pour y remédier. À l’aide d’une étude empirique extensive, nous démontrons que la sélection d’ensembles actifs basée sur l’entropie a posteriori des modèles profonds, tels que FastText.zip (FTZ), est robuste aux biais d’échantillonnage et aux différentes choix algorithmiques (taille des requêtes, stratégies de sélection), contrairement à ce que suggère la littérature classique. Nous montrons également que la stratégie de requête basée sur FTZ produit des ensembles d’échantillons similaires à ceux obtenus par des approches plus sophistiquées (par exemple, les réseaux ensemblistes). Enfin, nous établissons l’efficacité des échantillons sélectionnés en construisant de petits ensembles de données de haute qualité, puis en les utilisant pour entraîner rapidement et à faible coût de grands modèles. Sur la base de ces résultats, nous proposons une base simple pour la classification textuelle active profonde, qui surpasserait l’état de l’art. Nous estimons que ce travail sera utile et éclairant pour la compression des jeux de données, ainsi que pour des problèmes impliquant des scénarios d’apprentissage actif, semi-supervisé ou en ligne. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/drimpossible/Sampling-Bias-Active-Learning


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Biais d'échantillonnage dans la classification active profonde : une étude empirique | Articles | HyperAI