HyperAIHyperAI

Command Palette

Search for a command to run...

音楽ソース分離のためのハイブリッドトランスフォーマー

Simon Rouard Francisco Massa Alexandre Défossez

概要

音源分離(Music Source Separation, MSS)において自然に浮かび上がる問いは、長距離の文脈情報を用いることが有効であるのか、それとも局所的な音響特徴のみで十分なのかである。他の分野では、アテンションをベースとするTransformerモデルが、長文のシーケンスにわたる情報を統合する能力を示している。本研究では、Hybrid Demucsを基盤とし、時間軸と周波数軸の両方を扱うバイ-U-Netアーキテクチャを採用した「ハイブリッド・トランスフォーマー・デミュース(HT Demucs)」を提案する。このモデルの中心部では、従来の畳み込み層を、同一ドメイン内での自己アテンション(self-attention)と異なるドメイン間でのクロスアテンション(cross-attention)を用いるクロスドメイン・トランスフォーマー・エンコーダーに置き換えた。MUSDBデータセットのみで学習した場合、性能は芳しくなかったが、追加で800曲のデータを用いて学習させた場合、Hybrid Demucs(同じデータで学習)よりもSDRで0.45 dB優れた性能を達成した。さらに、スパースアテンションカーネルを用いて受容場を拡張し、各音源ごとのファインチューニングを施すことで、追加学習データを用いた場合、MUSDBベンチマークにおいて最先端の結果を達成し、SDRは9.20 dBを記録した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています