Amélioration de la formation des réseaux binaires pour l'estimation de la posture humaine et la reconnaissance d'images

Les grands réseaux neuronaux formés sur de vastes ensembles de données ont considérablement amélioré l'état de l'art pour une grande variété de problèmes complexes, en augmentant les performances d'une marge importante. Cependant, sous des contraintes de mémoire limitée et de puissance de calcul restreinte, la précision sur ces mêmes problèmes diminue considérablement. Dans cet article, nous proposons une série de techniques qui améliorent significativement la précision des réseaux neuronaux binarisés (c'est-à-dire des réseaux où les caractéristiques et les poids sont binaires). Nous évaluons ces améliorations proposées sur deux tâches diverses : la reconnaissance fine-grainée (estimation de la posture humaine) et la reconnaissance d'images à grande échelle (classification ImageNet). Plus précisément, nous introduisons une série de changements méthodologiques novateurs comprenant : (a) des fonctions d'activation plus appropriées, (b) l'initialisation dans l'ordre inverse, (c) la quantification progressive, et (d) le empilement de réseaux, et montrons que ces ajouts améliorent considérablement les techniques existantes de binarisation des réseaux neuronaux. De plus, pour la première fois, nous examinons également dans quelle mesure la binarisation des réseaux et le distillation de connaissances peuvent être combinées. Lorsqu'ils sont testés sur l'ensemble de données MPII complexe, notre méthode montre une amélioration des performances supérieure à 4 % en termes absolus. Enfin, nous validons davantage nos résultats en appliquant les techniques proposées à la reconnaissance d'objets à grande échelle sur l'ensemble de données Imagenet, où nous rapportons une réduction du taux d'erreur de 4 %.