6ヶ月前

畳み込みニューラルネットワーク

音声および音声処理

アプローチ／フレームワーク

オーディオ

Simon Rouard Francisco Massa Alexandre Défossez

概要

音源分離（Music Source Separation, MSS）において自然に浮かび上がる問いは、長距離の文脈情報を用いることが有効であるのか、それとも局所的な音響特徴のみで十分なのかである。他の分野では、アテンションをベースとするTransformerモデルが、長文のシーケンスにわたる情報を統合する能力を示している。本研究では、Hybrid Demucsを基盤とし、時間軸と周波数軸の両方を扱うバイ-U-Netアーキテクチャを採用した「ハイブリッド・トランスフォーマー・デミュース（HT Demucs）」を提案する。このモデルの中心部では、従来の畳み込み層を、同一ドメイン内での自己アテンション（self-attention）と異なるドメイン間でのクロスアテンション（cross-attention）を用いるクロスドメイン・トランスフォーマー・エンコーダーに置き換えた。MUSDBデータセットのみで学習した場合、性能は芳しくなかったが、追加で800曲のデータを用いて学習させた場合、Hybrid Demucs（同じデータで学習）よりもSDRで0.45 dB優れた性能を達成した。さらに、スパースアテンションカーネルを用いて受容場を拡張し、各音源ごとのファインチューニングを施すことで、追加学習データを用いた場合、MUSDBベンチマークにおいて最先端の結果を達成し、SDRは9.20 dBを記録した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

畳み込みニューラルネットワーク

音声および音声処理

アプローチ／フレームワーク

オーディオ

Simon Rouard Francisco Massa Alexandre Défossez

概要

音源分離（Music Source Separation, MSS）において自然に浮かび上がる問いは、長距離の文脈情報を用いることが有効であるのか、それとも局所的な音響特徴のみで十分なのかである。他の分野では、アテンションをベースとするTransformerモデルが、長文のシーケンスにわたる情報を統合する能力を示している。本研究では、Hybrid Demucsを基盤とし、時間軸と周波数軸の両方を扱うバイ-U-Netアーキテクチャを採用した「ハイブリッド・トランスフォーマー・デミュース（HT Demucs）」を提案する。このモデルの中心部では、従来の畳み込み層を、同一ドメイン内での自己アテンション（self-attention）と異なるドメイン間でのクロスアテンション（cross-attention）を用いるクロスドメイン・トランスフォーマー・エンコーダーに置き換えた。MUSDBデータセットのみで学習した場合、性能は芳しくなかったが、追加で800曲のデータを用いて学習させた場合、Hybrid Demucs（同じデータで学習）よりもSDRで0.45 dB優れた性能を達成した。さらに、スパースアテンションカーネルを用いて受容場を拡張し、各音源ごとのファインチューニングを施すことで、追加学習データを用いた場合、MUSDBベンチマークにおいて最先端の結果を達成し、SDRは9.20 dBを記録した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています