8日前

カバー曲識別のためのJoint Representation Learningおよびデータ拡張を備えたWideResNet

{Tao Jiang, Weifeng Zhao, Lingcheng Kong, Wucheng Wang, Yiliang Jiang, JinHong Lu, Bin Zhang, Shichao Hu}
カバー曲識別のためのJoint Representation Learningおよびデータ拡張を備えたWideResNet
要約

カバー曲識別(Cover Song Identification; CSI)は、音楽情報検索(Music Information Retrieval; MIR)分野において長年にわたり挑戦的であり、重要な研究課題である。近年、深層学習に基づくアプローチにより、CSI問題は広範にわたって研究が進められている。本論文では、マルチタスク学習に着想を得た jointly な表現学習手法を基盤とする、新たなCSIフレームワークを提案する。具体的には、WideResNetをベースとしたカバー曲モデルの最適化を目的として、分類学習とメトリック学習を統合する新しい学習戦略を提案し、これを「LyraC-Net」と命名する。分類目的の学習は、異なるクラス間で分離可能な埋め込み表現を学習するのに対し、メトリック学習はクラス間距離を縮小し、クラス内分離性を向上させることで、埋め込みの類似度を最適化する。この統合的最適化戦略により、単一の学習目的に依拠する手法よりも、より堅牢なカバー曲表現を学習することが期待される。メトリック学習の実装においては、訓練の安定化と高速化を図るため、プロトタイプネットワーク(prototypical network)と三重損失(triplet loss)を導入している。さらに、音声認識分野で広く用いられるデータ拡張手法「SpecAugment」を導入し、性能のさらなる向上を図っている。実験結果から、提案手法が優れた性能を発揮し、他の最新のCSI手法と比較しても優位性を示したことが確認された。