
要約
抄訳:カバーソング識別(Cover Song Identification, CSI)は、クエリトラックが与えられた際に、異なるバージョンの同じ音楽を参照アンカーから見つけることに焦点を当てている。本論文では、既存の検出スキームの欠点を克服するために、より豊富な特徴量と洗練された注意およびアライメントを探索する新しいシステム「カバーハンター(CoverHunter)」を提案する。カバーハンターには3つの主要モジュールが含まれている:1) ローカルおよびグローバルな特徴量の相互作用を捉えるために設計された、畳み込み強化型トランスフォーマー(Conformer)構造。これは、従来の方法が主に畳み込みニューラルネットワークに依存していた点と対照的である;2) 時間次元での注意をさらに活用するための注意ベースの時間プーリングモジュール;3) 最初に曲断片の大まかなアライメントを行うネットワークを学習し、その後、アライメントされた断片で学習することでネットワークを洗練する新しい粗いところから細かいところへの学習スキーム。また、当システムで使用した重要な訓練テクニックも要約しており、それらはより良い結果を得るために役立っている。いくつかの標準的なCSIデータセットにおける実験結果は、埋め込みサイズが128の場合でも、当手法が最先端の手法に対して大幅に性能向上していることを示している(SHS100K-TESTでは2.3%、DaTacosでは17.7%)。