11 天前

AutoSpeech：面向说话人识别的神经架构搜索

Shaojin Ding, Tianlong Chen, Xinyu Gong, Weiwei Zha, Zhangyang Wang

摘要

基于卷积神经网络（CNN）的说话人识别系统通常采用现成的骨干网络（backbone），如VGG-Net或ResNet。然而，这些骨干网络最初是为图像分类任务设计的，因此在说话人识别任务中可能并非最优选择。由于手动探索网络结构空间的复杂度极高，本文提出首个专为说话人识别任务设计的神经架构搜索方法，命名为AutoSpeech。该算法首先在神经单元（neural cell）中搜索最优的操作组合，随后通过多次堆叠该神经单元，构建出完整的CNN模型。最终的说话人识别模型可通过标准训练流程对所生成的CNN模型进行训练获得。为验证所提方法的有效性，我们在VoxCeleb1数据集上对说话人识别与说话人验证任务进行了实验。实验结果表明，由AutoSpeech生成的CNN架构在性能上显著优于当前基于VGG-M、ResNet-18和ResNet-34骨干网络的说话人识别系统，同时模型复杂度更低，展现出更优的性能-效率平衡。