Hypothèse du ticket de loterie à plusieurs prix : Recherche de réseaux neuronaux binaires précis par élagage d'un réseau à poids aléatoires

Récemment, Frankle & Carbin (2019) ont démontré que des réseaux denses initialisés aléatoirement contiennent des sous-réseaux qui, une fois identifiés, peuvent être entraînés pour atteindre une précision sur les données de test comparable à celle du réseau dense entièrement entraîné. Toutefois, la recherche de ces sous-réseaux performants s’avère coûteuse, nécessitant un processus itératif d’entraînement et de suppression de poids. Dans cet article, nous proposons (et prouvons) une hypothèse renforcée du « Ticket à plusieurs lots » (Multi-Prize Lottery Ticket Hypothesis) :Un réseau neuronal suffisamment sur-paramétré avec des poids aléatoires contient plusieurs sous-réseaux (« tickets gagnants ») qui possèdent (a) une précision comparable à celle d’un réseau dense cible entraîné (prix 1), (b) une capacité à atteindre ce niveau de précision sans aucun entraînement supplémentaire (prix 2), et (c) une robustesse aux formes extrêmes de quantification (par exemple, poids et/ou activations binaires) (prix 3).Cela ouvre une nouvelle approche pour concevoir des réseaux neuronaux binaires compacts mais hautement précis, en se limitant à la suppression de poids et à la quantification de réseaux pleine précision initialisés aléatoirement. Nous proposons également un algorithme pour identifier ces « tickets à plusieurs lots » (MPTs) et l’évaluons à travers une série d’expériences menées sur les jeux de données CIFAR-10 et ImageNet. Les résultats expérimentaux montrent que, à mesure que les modèles deviennent plus profonds et plus larges, les tickets à plusieurs lots atteignent une précision test similaire, voire parfois supérieure, à celle de leurs homologues bien plus grands et entièrement entraînés en précision pleine. Sans jamais mettre à jour les valeurs des poids, nos MPTs-1/32 établissent de nouveaux records d’état de l’art (SOTA) pour les réseaux binaires en précision top-1 : 94,8 % sur CIFAR-10 et 74,03 % sur ImageNet, tout en surpassant leurs contreparties à précision pleine respectivement de 1,78 % et 0,76 %. De plus, notre MPT-1/1 atteint un nouveau record d’état de l’art (91,9 %) pour les réseaux binaires sur CIFAR-10. Le code source et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/chrundle/biprop.