Apprentissage à partir de multiples experts : distillation de connaissance auto-ajustée pour la classification à queue longue

Dans les scénarios du monde réel, les données présentent souvent une distribution en queue longue, ce qui complique significativement l'entraînement des réseaux profonds. Dans cet article, nous proposons un nouveau cadre de distillation de connaissances auto-ajustée, appelé Learning From Multiple Experts (LFME). Notre méthode s'inspire de l'observation selon laquelle les réseaux entraînés sur des sous-ensembles moins déséquilibrés de la distribution obtiennent souvent de meilleures performances que leurs homologues entraînés conjointement. Nous désignons ces modèles comme des « Experts », et le cadre LFME proposé agrège les connaissances provenant de plusieurs « Experts » afin d'apprendre un modèle étudiant unifié. Plus précisément, le cadre proposé met en œuvre deux niveaux d'horaires d'apprentissage adaptatifs : une sélection auto-ajustée d'Experts et une sélection de instances selon un curriculum, de manière à transférer de manière adaptative les connaissances vers l'« Étudiant ». Nous menons des expériences étendues et démontrons que notre méthode permet d'atteindre des performances supérieures par rapport aux méthodes de pointe. Nous montrons également que notre approche peut être facilement intégrée dans les algorithmes d'apprentissage automatique de classification à queue longue les plus avancés afin d'obtenir des améliorations supplémentaires.