2ヶ月前

ByteCover: 複数損失学習を用いたカバーソング識別

Xingjian Du; Zhesong Yu; Bilei Zhu; Xiaoou Chen; Zejun Ma
ByteCover: 複数損失学習を用いたカバーソング識別
要約

本論文では、カバーソング識別(CSI)のための新しい特徴学習手法であるByteCoverを提案します。ByteCoverは古典的なResNetモデルを基盤としており、CSIの能力向上のために2つの主要な改良が設計されています。最初の改良では、インスタンス正規化(IN)とバッチ正規化(BN)の統合を導入し、IBNブロックを構築しました。これらのIBNブロックは、私たちのResNet-IBNモデルの主要な構成要素です。IBNブロックのおかげで、キー、テンポ、音色、ジャンルなどの音楽属性の変化に不変でありながら、バージョン情報を保持する特徴を学習することが可能になりました。2つ目の改良では、BNNeckメソッドを使用して多損失訓練を可能とし、分類損失とトリプレット損失を同時に最適化することを促進しています。これにより、カバーソング間でのクラス間識別力とクラス内コンパクトさが同時に確保されます。一連の実験により、複数のデータセット上でByteCoverの有効性と効率性が示されました。Da-TACOSデータセットにおいては、ByteCoverが最有力競合システムに対して20.9%上回る性能を発揮しました。