2 个月前

学习可迁移架构以实现可扩展的图像识别

Barret Zoph; Vijay Vasudevan; Jonathon Shlens; Quoc V. Le

摘要

开发神经网络图像分类模型通常需要大量的架构工程设计。在本文中，我们研究了一种方法，直接在感兴趣的数据库上学习模型架构。由于当数据集较大时这种方法成本较高，我们提出在一个小数据集上搜索一个架构构建模块（或称为“单元”），然后将该模块转移到更大的数据集上。本工作的关键贡献在于设计了一个新的搜索空间（即“NASNet搜索空间”），这使得迁移成为可能。在实验中，我们在CIFAR-10数据集上搜索最佳的卷积层（或称为“单元”），然后通过堆叠更多这样的单元并为每个单元分配独立参数来设计卷积架构，命名为“NASNet架构”。我们还引入了一种新的正则化技术，称为ScheduledDropPath，该技术显著提高了NASNet模型的泛化能力。在CIFAR-10数据集上，NASNet达到了2.4%的错误率，这是当前的最佳水平。在ImageNet数据集上，NASNet在已发表的研究中取得了82.7%的Top-1准确率和96.2%的Top-5准确率。我们的模型在Top-1准确率上比最好的人工设计架构高1.2%，同时计算量减少了90亿次浮点运算（FLOPS），相当于前一最佳模型计算需求减少了28%。在不同计算成本下评估时，NASNet的准确性超过了当前最先进的人工设计模型。例如，在移动平台上的同等规模模型中，一个小版本的NASNet也达到了74%的Top-1准确率，比同等规模的最先进模型高出3.1%。最后，在COCO数据集中使用Faster-RCNN框架时，NASNet学习到的特征超越了最先进水平4.0%，实现了43.1%的平均精度均值（mAP）。