il y a 2 mois

0/1 Réseaux de Neurones Profonds par Descente de Coordonnées par Blocs

Zhang, Hui ; Zhou, Shenglong ; Li, Geoffrey Ye ; Xiu, Naihua

Résumé

La fonction échelon est l'une des fonctions d'activation les plus simples et naturelles pour les réseaux de neurones profonds (DNNs). Comme elle attribue une valeur de 1 aux variables positives et 0 aux autres, ses caractéristiques intrinsèques (par exemple, la discontinuité et l'absence d'informations sur les sous-gradients) ont freiné son développement pendant plusieurs décennies. Bien qu'il existe un corpus impressionnant de travaux sur la conception de DNNs avec des fonctions d'activation continues qui peuvent être considérées comme des substituts de la fonction échelon, elle possède encore certaines propriétés avantageuses, telles que une robustesse totale aux valeurs aberrantes et la capacité d'atteindre la meilleure garantie théorique en termes de précision prédictive. Par conséquent, dans cet article, nous visons à entraîner des DNNs utilisant la fonction échelon comme fonction d'activation (appelés DNNs 0/1). Nous reformulons d'abord les DNNs 0/1 comme un problème d'optimisation non contraint et le résolvons ensuite par une méthode de descente coordonnée par blocs (BCD). De plus, nous obtenons des solutions explicites pour les sous-problèmes de BCD ainsi que leurs propriétés de convergence. En outre, nous intégrons également la régularisation $\ell_{2,0}$ dans les DNNs 0/1 afin d'accélérer le processus d'entraînement et de compresser l'échelle du réseau. En conséquence, l'algorithme proposé présente une performance élevée dans la classification des ensembles de données MNIST et Fashion-MNIST. De même, l'algorithme proposé montre une performance satisfaisante dans la classification des ensembles de données MNIST, Fashion-MNIST, Cifar10 et Cifar100.