17 天前
HyT-NAS:面向边缘设备的混合Transformer神经架构搜索
Lotfi Abdelkrim Mecharbat, Hadjer Benmeziane, Hamza Ouarnoughi, Smail Niar

摘要
视觉Transformer(Vision Transformers)使得基于注意力机制的深度学习(DL)架构在计算机视觉(CV)任务中取得了显著成果。然而,由于这类架构对计算资源需求较高,往往难以在资源受限的设备上部署。当前研究主要探索将手工设计的卷积网络与注意力机制相结合的混合模型,用于图像分类、目标检测等CV任务。本文提出一种高效且面向硬件的神经架构搜索方法——HyT-NAS,该方法支持混合架构,专为小型设备上的视觉任务而设计。HyT-NAS通过扩展搜索空间、优化搜索策略以及改进性能预测器,显著提升了现有先进硬件感知神经架构搜索(HW-NAS)的性能。实验结果表明,HyT-NAS在获得相近超体积(hypervolume)指标的前提下,所需训练评估次数不足原有方法的五分之一。所获得的最终架构在Visual Wake Words任务上,相比MLPerf标准的MobileNetV1,在准确率上提升了6.3%,同时参数量减少了3.5倍。