
摘要
神经架构搜索(Neural Architecture Search, NAS)作为一种自动化网络架构设计的技术,是推动端到端自动语音识别(Automatic Speech Recognition, ASR)发展的关键下一步,其目标是用任务特定的可学习架构替代人工设计的网络结构。与早期计算开销巨大的NAS方法相比,近年来基于梯度的NAS方法(如DARTS、SNAS和ProxylessNAS)显著提升了NAS的效率。本文做出两项主要贡献:首先,我们系统性地提出了一种基于直通(Straight-Through, ST)梯度的高效NAS方法,称为ST-NAS。该方法在SNAS损失函数的基础上,采用ST梯度对离散变量进行反向传播以优化目标函数,这一机制在ProxylessNAS中并未被明确揭示。利用ST梯度支持子图采样,是实现超越DARTS和SNAS效率的关键技术要素。其次,我们成功将ST-NAS应用于端到端ASR任务。在广泛使用的80小时WSJ和300小时Switchboard数据集上的实验结果表明,由ST-NAS生成的网络架构在两个数据集上均显著优于人工设计的基准架构。此外,本文还验证了ST-NAS在架构可迁移性以及内存与时间开销方面的显著优势,展现出其在实际应用中的高效潜力。