17 天前

用于说话人识别的重塑维度网络

Ivan Yakovlev, Rostislav Makarov, Andrei Balykin, Pavel Malov, Anton Okhotnikov, Nikita Torgashov
用于说话人识别的重塑维度网络
摘要

本文提出了一种名为重塑维度网络(Reshape Dimensions Network, ReDimNet)的新型神经网络架构,用于提取话语级说话人表征。该方法通过将二维特征图在时频维度上进行维度重塑,实现从二维特征到一维信号表示的转换,以及反向转换,从而支持一维与二维模块的联合使用。我们设计了一种创新的网络拓扑结构,有效保持了一维与二维模块输出的通道-时间-频率维度体积,促进了残差特征图的高效聚合。此外,ReDimNet具有良好的可扩展性,本文构建了多种不同规模的模型,参数量范围为100万至1500万,计算量(GMACs)范围为0.5至20 GMACs。实验结果表明,ReDimNet在说话人识别任务中达到了当前最优性能,同时显著降低了计算复杂度和模型参数量。