
摘要
神经网络的成功推动了研究重点从特征工程转向架构工程。然而,当今成功的网络通常是由一小套手动定义的构建模块组成的。即使在神经架构搜索(Neural Architecture Search, NAS)方法中,网络连接模式也大多受到限制。在这项工作中,我们提出了一种发现神经连接的方法。我们放宽了对层的传统定义,转而允许通道独立地形成连接。这使得可能的网络空间大大扩展。我们的网络连接在训练过程中不是固定的——在学习网络参数的同时,我们也学习其结构本身。实验结果表明,我们所学到的连接方式优于手工设计和随机连接的网络。通过学习MobileNetV1的连接方式,我们在约4100万浮点运算次数(FLOPs)的情况下将ImageNet的准确率提高了10%。此外,我们还证明了该方法适用于递归网络和连续时间网络。我们的工作也可以被视为将神经架构搜索问题的核心方面与稀疏神经网络学习统一起来。随着NAS变得越来越精细,找到一个好的架构类似于在一个完整的图中找到一个稀疏子网。因此,DNW提供了一种有效的机制,在单次训练过程中发现预定义架构中的稀疏子网。尽管在前向传播过程中我们只使用了少量权重,但我们仍然以组合数量的子网参与所谓的初始化彩票效应(initialization lottery)。代码和预训练模型可在https://github.com/allenai/dnw 获取,更多可视化结果可参见https://mitchellnw.github.io/blog/2019/dnw/。