
摘要
深度学习在自动化机器学习流水线中的特征设计方面取得了显著成功。然而,用于优化神经网络参数的算法仍然主要依赖手工设计,并且计算效率低下。本文研究了是否可以通过利用训练其他网络的历史知识,直接使用深度学习预测这些参数。为此,我们引入了一个包含多种神经架构计算图的大规模数据集——DeepNets-1M,并利用该数据集在CIFAR-10和ImageNet上探索参数预测。通过借鉴图神经网络的最新进展,我们提出了一种超网络模型,该模型能够在一次前向传播中快速预测出高效的参数,即使在CPU上也只需几秒钟的时间。所提出的模型在未见过且多样化的网络上表现出令人惊讶的良好性能。例如,它能够预测ResNet-50的所有2400万个参数,在CIFAR-10上的准确率达到60%。而在ImageNet上,某些网络的前五名准确率接近50%。我们的任务、模型及结果有望引领一种新的、更加计算高效的网络训练范式。此外,我们的模型还学会了对神经架构进行强有力的表示,从而能够对其进行分析。