2 个月前

神经架构优化

Renqian Luo; Fei Tian; Tao Qin; Enhong Chen; Tie-Yan Liu
神经架构优化
摘要

自动神经架构设计在发现强大的神经网络架构方面展示了其潜力。现有的方法,无论是基于强化学习还是进化算法(Evolutionary Algorithms, EA),都在离散空间中进行架构搜索,这非常低效。本文提出了一种简单高效的基于连续优化的自动神经架构设计方法。我们称这种新方法为神经架构优化(Neural Architecture Optimization, NAO)。我们提出的这种方法包含三个关键组件:(1) 编码器将神经网络架构嵌入到连续空间中。(2) 预测器以网络的连续表示作为输入,预测其准确性。(3) 解码器将网络的连续表示映射回其架构。性能预测器和编码器使我们能够在连续空间中通过梯度优化来寻找具有潜在更高准确性的新架构的嵌入。然后,解码器将这种更好的嵌入解码为一个网络。实验表明,我们的方法发现的架构在CIFAR-10图像分类任务和PTB语言建模任务上表现非常出色,超过了或与之前架构搜索方法的最佳结果相当,同时显著减少了计算资源的消耗。具体而言,我们在CIFAR-10图像分类任务上获得了1.93%的测试集错误率,在PTB语言建模任务上获得了56.0的测试集困惑度。此外,结合最近提出的权重共享机制,我们在CIFAR-10(错误率为2.93%)和PTB(测试集困惑度为56.6)上发现了强大的架构,且两个任务所需的计算资源都非常有限(不到10个GPU小时)。