11 天前

AutoSpeech:面向说话人识别的神经架构搜索

Shaojin Ding, Tianlong Chen, Xinyu Gong, Weiwei Zha, Zhangyang Wang
AutoSpeech:面向说话人识别的神经架构搜索
摘要

基于卷积神经网络(CNN)的说话人识别系统通常采用现成的骨干网络(backbone),如VGG-Net或ResNet。然而,这些骨干网络最初是为图像分类任务设计的,因此在说话人识别任务中可能并非最优选择。由于手动探索网络结构空间的复杂度极高,本文提出首个专为说话人识别任务设计的神经架构搜索方法,命名为AutoSpeech。该算法首先在神经单元(neural cell)中搜索最优的操作组合,随后通过多次堆叠该神经单元,构建出完整的CNN模型。最终的说话人识别模型可通过标准训练流程对所生成的CNN模型进行训练获得。为验证所提方法的有效性,我们在VoxCeleb1数据集上对说话人识别与说话人验证任务进行了实验。实验结果表明,由AutoSpeech生成的CNN架构在性能上显著优于当前基于VGG-M、ResNet-18和ResNet-34骨干网络的说话人识别系统,同时模型复杂度更低,展现出更优的性能-效率平衡。

AutoSpeech:面向说话人识别的神经架构搜索 | 最新论文 | HyperAI超神经