il y a 11 jours

Entraînement sparse par renforcement de la plasticité de la suppression grâce à la neurorégénération

Shiwei Liu, Tianlong Chen, Xiaohan Chen, Zahra Atashgahi, Lu Yin, Huanyu Kou, Li Shen, Mykola Pechenizkiy, Zhangyang Wang, Decebal Constantin Mocanu

Voir les détails de l'article

Entraînement sparse par renforcement de la plasticité de la suppression grâce à la neurorégénération

Résumé

Les travaux sur l’hypothèse du ticket de loterie (LTH) et sur l’élagage à une seule phase (SNIP) ont attiré récemment une attention croissante concernant l’élagage post-entraînement (élagage itératif par magnitude) et l’élagage avant-entraînement (élagage à l’initialisation). La première approche souffre d’un coût computationnel extrêmement élevé, tandis que la seconde présente généralement des performances insuffisantes. En comparaison, l’élagage pendant l’entraînement, une catégorie de méthodes qui combine à la fois l’efficacité en entraînement et en inférence ainsi qu’une performance comparable, reste jusqu’à présent peu explorée. Pour mieux comprendre cette approche, nous étudions de manière quantitative l’effet de l’élagage tout au long de l’entraînement du point de vue de la plasticité de l’élagage (c’est-à-dire la capacité du réseau élagué à retrouver les performances initiales). La plasticité de l’élagage permet d’expliquer plusieurs observations empiriques connues dans la littérature sur l’élagage des réseaux de neurones. Nous constatons par ailleurs que cette plasticité peut être significativement améliorée en intégrant un mécanisme inspiré du cerveau, appelé neuro-régénération, c’est-à-dire en rétablissant autant de connexions qu’il en a été élaguées. À partir de cette idée, nous proposons une nouvelle méthode d’élagage progressif par magnitude, nommée Gradual Pruning with Zero-Cost Neuroregeneration (GraNet), qui atteint un nouveau record d’état de l’art. Peut-être plus remarquable encore, sa version sparse-to-sparse permet, pour la première fois, d’améliorer les performances de l’entraînement sparse-to-sparse sur diverses méthodes dense-to-sparse, sur ImageNet avec ResNet-50, sans allonger le temps d’entraînement. Nous mettons à disposition l’intégralité du code source à l’adresse suivante : https://github.com/Shiweiliuiiiiiii/GraNet.