HyperAIHyperAI

Command Palette

Search for a command to run...

Spartan : Économie différentiable via le transport régularisé

Kai Sheng Tai Taipeng Tian Ser-Nam Lim

Résumé

Nous présentons Spartan, une méthode d'entraînement de modèles de réseaux de neurones creux (sparse) avec un niveau de sparsité prédéterminé. Spartan repose sur une combinaison de deux techniques : (1) un masquage soft top-k des paramètres à faible magnitude via un problème d’optimisation de transport optimal régularisé, et (2) des mises à jour de paramètres basées sur une moyenne duale, accompagnées d’une sparsification rigide (hard) lors du passage avant. Ce schéma réalise un compromis entre exploration et exploitation : au début de l’entraînement, l’apprenant peut explorer diverses configurations de sparsité, et au fur et à mesure que l’approximation soft top-k se précise progressivement, l’équilibre se déplace vers une optimisation fine des paramètres sous un masque de sparsité fixe. Spartan est suffisamment flexible pour intégrer une variété de politiques d’allocation de sparsité, y compris à la fois la sparsité non structurée et la sparsité structurée par blocs, ainsi que des allocations de sparsité générales sensibles aux coûts, modélisées par des fonctions linéaires des coûts par paramètre. Sur la classification ImageNet-1K, Spartan permet d’obtenir des modèles ResNet-50 à 95 % de sparsité et des modèles ViT-B/16 à 90 % de sparsité par blocs, tout en subissant une perte absolue en précision top-1 inférieure à 1 % par rapport à un entraînement entièrement dense.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Spartan : Économie différentiable via le transport régularisé | Articles | HyperAI