2 个月前

通过块坐标下降法构建深度神经网络

Zhang, Hui ; Zhou, Shenglong ; Li, Geoffrey Ye ; Xiu, Naihua

摘要

阶跃函数是深度神经网络（DNNs）中最简单且最自然的激活函数之一。由于它对正变量赋值为1，对其他变量赋值为0，其固有的特性（如不连续性和无法提供有效的次梯度信息）阻碍了其在数十年间的发展。尽管有大量关于设计具有连续激活函数的DNN的研究工作，这些激活函数可以被视为阶跃函数的替代品，但阶跃函数仍具有一些优势特性，例如对外部异常值完全鲁棒以及能够达到最佳的学习理论预测精度保证。因此，在本文中，我们旨在使用阶跃函数作为激活函数来训练DNN（称为0/1 DNN）。首先，我们将0/1 DNN重新表述为一个无约束优化问题，然后通过块坐标下降（BCD）方法求解该问题。此外，我们还获得了BCD子问题的闭式解及其收敛性质。进一步地，我们将$\ell_{2,0}$正则化融入0/1 DNN中以加速训练过程并压缩网络规模。结果表明，所提出的算法在分类MNIST和Fashion-MNIST数据集方面表现出高性能。此外，该算法在分类MNIST、Fashion-MNIST、Cifar10和Cifar100数据集时也表现出良好的性能。