Correction de biais de données dans la distillation de connaissances

La distillation de connaissances est une technique representative de la compression et de l’accélération des modèles, essentielle pour déployer des réseaux de neurones sur des dispositifs à ressources limitées. Les connaissances transférées du modèle enseignant au modèle apprenant correspondent à l’application du modèle enseignant, ou encore à l’ensemble des paires entrée-sortie. Toutefois, en pratique, le modèle apprenant ne tire ses apprentissages que des paires de données issues d’un ensemble de données pouvant présenter des biais, ce que nous considérons comme une limitation de la performance de la distillation de connaissances. Dans cet article, nous définissons tout d’abord de manière quantitative l’uniformité des données échantillonnées pour l’entraînement, offrant ainsi une vision unifiée des méthodes qui apprennent à partir de données biaisées. Nous évaluons ensuite cette uniformité sur des jeux de données réels et montrons que les méthodes existantes améliorent effectivement l’uniformité des données. Nous introduisons par la suite deux nouvelles méthodes orientées vers l’uniformité, visant à corriger les biais présents dans les données pour la distillation de connaissances. Des expériences étendues menées sur les tâches de reconnaissance faciale et de réidentification de personnes démontrent l’efficacité de notre approche. En outre, nous analysons les données échantillonnées dans le cadre de la reconnaissance faciale et constatons une meilleure équité entre les groupes raciaux ainsi qu’entre les exemples faciles et les exemples difficiles. Ce bénéfice se confirme également lors de l’entraînement du modèle apprenant depuis le début, conduisant à des performances comparables à celles de la distillation de connaissances standard.