AC/DC : Entraînement alterné compressé/décompressé des réseaux de neurones profonds

Les besoins computationnels croissants des réseaux de neurones profonds (DNN) ont suscité un intérêt marqué pour l’obtention de modèles DNN à la fois creux (sparse) et précis. Des travaux récents ont exploré le cas encore plus difficile de l’entraînement creux, dans lequel les poids du DNN sont, autant que possible, déjà creux dès le départ, afin de réduire les coûts computationnels durant l’entraînement. Les méthodes d’entraînement creux existantes sont souvent empiriques et peuvent présenter une précision inférieure par rapport à une référence dense. Dans cet article, nous proposons une approche générale appelée entraînement alterné compressé/décompressé (AC/DC) pour les DNN, démontrons la convergence pour une variante de l’algorithme, et montrons que l’AC/DC surpasse les méthodes existantes d’entraînement creux en précision, pour un budget computationnel similaire ; à des niveaux élevés de densité creuse, l’AC/DC dépasse même les méthodes existantes qui reposent sur des modèles denses pré-entraînés précis. Une propriété importante de l’AC/DC est qu’elle permet l’entraînement conjoint (co-training) de modèles denses et creux, produisant à la fin du processus des paires de modèles creux-denses précis. Cela s’avère utile en pratique, lorsque des variantes compressées sont souhaitables pour le déploiement dans des environnements à ressources limitées, sans avoir à répéter l’intégralité du processus d’entraînement, et fournit également des éclaircissements sur l’écart de précision entre modèles denses et modèles compressés. Le code est disponible à l’adresse suivante : https://github.com/IST-DASLab/ACDC .