Les modèles LLM sont-ils réellement nécessaires à une sur-paramétrisation dense ? Une sur-paramétrisation en temps dans l'entraînement creux

Dans cet article, nous introduisons une nouvelle perspective pour l'entraînement des réseaux de neurones profonds capables d'atteindre des performances de pointe sans recourir à une sur-paramétrisation coûteuse, en proposant le concept de sur-paramétrisation en temps (In-Time Over-Parameterization, ITOP) dans le cadre de l'entraînement creux. En partant d'un réseau creux aléatoire et en explorant continuellement différentes connectivités creuses durant l'entraînement, nous réalisons une sur-paramétrisation au sein de la variété espace-temps, réduisant ainsi l'écart d'expressivité entre l'entraînement creux et l'entraînement dense. Nous utilisons ensuite ITOP pour mieux comprendre le mécanisme fondamental du training creux dynamique (Dynamic Sparse Training, DST), en montrant que les avantages de DST proviennent de sa capacité à considérer, au fil du temps, l'ensemble des paramètres possibles lors de la recherche de la connectivité creuse optimale. Dès lors que suffisamment de paramètres ont été efficacement explorés durant l'entraînement, DST peut surpasser largement les réseaux denses. Nous présentons une série d'expériences pour soutenir notre hypothèse, et obtenons des performances de pointe dans l'entraînement creux avec ResNet-50 sur ImageNet. Plus remarquablement encore, notre méthode dépasse de manière significative les approches creuses basées sur la sur-paramétrisation, même à des niveaux extrêmes de densité. Lors de l'entraînement sur CIFAR-100, notre méthode parvient à égaler la performance du modèle dense, même à une sparsité extrême de 98 %. Le code est disponible à l'adresse suivante : https://github.com/Shiweiliuiiiiiii/In-Time-Over-Parameterization.