摘要
基于卷积神经网络(CNN)的方法在近期的Cover Song Identification(CSI,翻唱歌曲识别)研究中占据主导地位。一个典型代表是我们提出的ByteCover系统,该系统在所有主流CSI数据集上均取得了当前最优的识别性能。本文提出了一种ByteCover的升级版本——ByteCover2,其在识别准确率和计算效率方面均进一步优于原版ByteCover。与ByteCover相比,ByteCover2引入了一个额外的PCA-FC模块,该模块融合了主成分分析(PCA)与全连接(FC)神经网络的能力,用于音频嵌入的降维处理,从而使得ByteCover2能够以更高的精度和效率完成CSI任务。我们在多种不同维度大小和训练设置下的多个数据集上对ByteCover2进行了评估,结果表明,即便在128维的低维配置下(仅为ByteCover原始维度的1/15),ByteCover2仍优于所有对比方法,包括原始的ByteCover系统。