
要約
カバーソング識別は、クエリートラックとカバーバージョンの間の複雑な音楽的な変動により、音楽情報検索(Music Information Retrieval: MIR)分野において難易度の高い課題となっています。従来の研究では、手作業で設計された特徴量とアライメントアルゴリズムを主に利用していました。最近では、ニューラルネットワーク手法を用いることでさらなる進展が見られています。本論文では、カバーソング識別の特性に基づいた新しい畳み込みニューラルネットワーク(Convolutional Neural Network: CNN)のアーキテクチャを提案します。まず、分類戦略を通じてネットワークを訓練し、次にそのネットワークを使用してカバーソング識別に向けた音楽表現を抽出します。テンポ変化に対するロバストなモデルを訓練するためのスキームも設計されています。実験結果は、当方の手法がすべての公開データセットにおいて最先端の方法を上回り、特に大規模データセットでの性能向上が著しいことを示しています。