
摘要
版本识别(VI)任务涉及自动检测对应同一首音乐作品的不同录音。尽管已有很多努力,但版本识别仍然是一个开放问题,特别是在结合准确性和可扩展性方面仍有很大的改进空间。本文介绍了MOVE,一种基于音乐动机的准确且可扩展的版本识别方法。通过在欧几里得距离空间中学习可扩展嵌入,并使用三元组损失和困难三元组挖掘策略,MOVE在两个公开可用的基准数据集上达到了最先进的性能。该方法通过采用替代输入表示、引入一种新的时间内容摘要技术、标准化潜在空间以及专门为版本识别设计的数据增强策略,超越了以往的工作。除了主要结果外,我们还进行了消融研究以突出我们的设计选择的重要性,并探讨了嵌入维度与模型性能之间的关系。