il y a 16 jours

Truquer le tirage au sort : rendre tous les tickets gagnants

Utku Evci, Trevor Gale, Jacob Menick, Pablo Samuel Castro, Erich Elsen

Résumé

De nombreuses applications nécessitent des réseaux de neurones creux en raison de contraintes de mémoire ou de temps d’inférence. Une vaste littérature existe sur l’entraînement de réseaux denses afin d’obtenir des réseaux creux pour l’inférence, mais cette approche limite la taille du plus grand modèle creux entraînable à celle du plus grand modèle dense entraînable. Dans cet article, nous introduisons une méthode permettant d’entraîner des réseaux de neurones creux avec un nombre fixe de paramètres et un coût computationnel constant tout au long de l’entraînement, sans compromettre la précision par rapport aux méthodes existantes d’entraînement dense-to-crépusculaire. Notre méthode met à jour la topologie du réseau creux pendant l’entraînement en utilisant les grandeurs des paramètres et des calculs de gradients peu fréquents. Nous démontrons que cette approche nécessite moins d’opérations à virgule flottante (FLOPs) pour atteindre un niveau donné de précision par rapport aux techniques antérieures. Nous présentons des résultats d’entraînement creux de pointe sur divers réseaux et jeux de données, notamment ResNet-50, MobileNets sur Imagenet-2012 et RNNs sur WikiText-103. Enfin, nous proposons quelques éclairages sur la raison pour laquelle permettre à la topologie de varier durant l’optimisation peut aider à surmonter les minima locaux rencontrés lorsque la topologie reste statique. Le code utilisé dans notre travail est disponible sur github.com/google-research/rigl.