il y a 8 jours

Réparamétrisation pondérée à seuil doux pour la parcimonie apprenable

Aditya Kusupati, Vivek Ramanujan, Raghav Somani, Mitchell Wortsman, Prateek Jain, Sham Kakade, Ali Farhadi

Résumé

La parcimonie dans les réseaux de neurones profonds (DNN) est largement étudiée, avec pour objectif principal de maximiser la précision des prédictions sous un budget global de paramètres. Les méthodes existantes reposent sur des budgets de parcimonie uniformes ou heuristiques non uniformes, entraînant une répartition sous-optimale des paramètres au niveau des couches, ce qui se traduit par a) une précision de prédiction réduite ou b) un coût d'inférence plus élevé (en FLOPs). Ce travail propose une nouvelle approche, appelée Réparamétrisation par seuil doux (STR), qui utilise de manière innovante l'opérateur de seuillage doux sur les poids des DNN. STR induit de manière continue la parcimonie tout en apprenant automatiquement les seuils de suppression, permettant ainsi d’obtenir un budget de parcimonie non uniforme. Notre méthode atteint l’état de l’art en précision pour la parcimonie non structurée dans les réseaux convolutionnels (ResNet50 et MobileNetV1 sur ImageNet-1K), tout en apprenant des budgets non uniformes qui réduisent empiriquement les FLOPs jusqu’à 50 %. Notamment, STR améliore la précision par rapport aux résultats existants jusqu’à 10 % dans le régime extrêmement parcimonieux (99 % de parcimonie), et peut également être utilisée pour induire une structure à rang faible (parcimonie structurée) dans les réseaux récurrents (RNN). En résumé, STR est un mécanisme simple qui apprend des budgets de parcimonie efficaces, en contraste avec les heuristiques courantes. Le code, les modèles pré-entraînés et les budgets de parcimonie sont disponibles à l’adresse suivante : https://github.com/RAIVNLab/STR.