要約
近年、カバー曲識別を目的とした複数の深層学習モデルが提案されており、それらは音楽トラックの固定長特徴ベクトルを学習することを目的として設計されている。しかし、二つのトラック間のメロディ類似度を測定する上で重要な音楽の時間的進行特性は、固定長ベクトルでは十分に表現されていない。本稿では、音楽メロディ類似度のメトリック学習を目的とした新たなシアンセスネットワークアーキテクチャを提案する。本アーキテクチャは二つの部分から構成される。一つは音楽トラックの深層シーケンス表現を学習するネットワークであり、もう一つは、ペアのトラックの深層シーケンスから計算されたクロス類似度行列を入力として受け取り、類似度を推定するネットワークである。これらの二つのネットワークは共同で学習・最適化され、高いメロディ類似度予測精度を達成することを目的としている。複数の公開データセットを用いた実験により、提案アーキテクチャの優位性が示された。