摘要
近年来,已有多种深度学习模型被提出用于cover song(翻唱歌曲)识别,这些模型通常设计为学习音乐片段的固定长度特征向量。然而,固定长度向量难以充分刻画音乐在时间维度上的动态演变过程,而这一特性对于衡量两首音乐在旋律上的相似性至关重要。本文提出一种新型的孪生网络架构,用于音乐旋律相似性度量学习。该架构由两部分组成:第一部分为用于学习音乐片段深层序列表示的网络;第二部分为相似性估计网络,其输入为一对音乐片段深层序列之间的交叉相似性矩阵。两个网络通过联合训练与优化,以实现高精度的旋律相似性预测。在多个公开数据集上的实验结果表明,所提出的架构在性能上具有显著优势。