8日前
BYTECOVER2:効率的なカバー曲識別を指向した潜在埋め込みの次元削減
{Zejun Ma, Bilei Zhu, Zijie Wang, Ke Chen, Xingjian Du}
要約
畳み込みニューラルネットワーク(CNN)に基づく手法は、最近のカバー曲識別(CSI)研究を牽引している。代表的な例として、我々が提案したByteCoverシステムがあり、これは主流のすべてのCSIデータセットにおいて最先端の性能を達成している。本論文では、ByteCoverの改良版として、ByteCover2と名付けた新たな手法を提案する。ByteCover2は、識別性能と効率性の両面でByteCoverをさらに向上させている。ByteCoverと比較して、ByteCover2は追加のPCA-FCモジュールを採用しており、このモジュールは主成分分析(PCA)と全結合(FC)ニューラルネットワークを統合し、音声埋め込みの次元削減を実現する。これにより、ByteCover2はより正確かつ効率的なCSIが可能となる。我々は、異なる次元サイズおよび学習設定の複数のデータセット上でByteCover2を評価した結果、ByteCoverを含むすべての比較手法を上回り、特に次元サイズが128という非常に小さい値でも、ByteCoverの15分の1のサイズながら優れた性能を発揮した。