6ヶ月前

音声および音声処理

ディープラーニング

畳み込みニューラルネットワーク

アプローチ／フレームワーク

オーディオ

Hong-Goo Kang Jihyun Kim

概要

音声源分離に関する最近の研究は、一般的な音声信号への応用範囲を拡大している。カスタムイコライザーの提供や、多様なエフェクトを用いたライブストリーミング音質の向上といったサービスを実現するためには、音声源分離のリアルタイム処理が不可欠である。しかし、従来の多くの手法は、高い計算複雑性、大きなメモリ消費、または長時間のレイテンシのため、リアルタイム応用に適していなかった。こうした課題を克服するため、本研究では、深層潜在表現領域における高次元マスキングを活用するWave-U-Net型の音声源分離ネットワークを提案する。さらに、マスキングに基づくアプローチを用いて、各ターゲット音源の顕著な潜在空間埋め込みを推定するための対照学習技術を導入している。提案モデルの性能は、MUSDB18HQデータセットを用いて複数のベースラインと比較して評価された。実験の結果、本モデルがリアルタイム処理を実現可能であり、既存のモデルを上回る性能を発揮することが確認された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

ディープラーニング

畳み込みニューラルネットワーク

アプローチ／フレームワーク

オーディオ

Hong-Goo Kang Jihyun Kim

概要

音声源分離に関する最近の研究は、一般的な音声信号への応用範囲を拡大している。カスタムイコライザーの提供や、多様なエフェクトを用いたライブストリーミング音質の向上といったサービスを実現するためには、音声源分離のリアルタイム処理が不可欠である。しかし、従来の多くの手法は、高い計算複雑性、大きなメモリ消費、または長時間のレイテンシのため、リアルタイム応用に適していなかった。こうした課題を克服するため、本研究では、深層潜在表現領域における高次元マスキングを活用するWave-U-Net型の音声源分離ネットワークを提案する。さらに、マスキングに基づくアプローチを用いて、各ターゲット音源の顕著な潜在空間埋め込みを推定するための対照学習技術を導入している。提案モデルの性能は、MUSDB18HQデータセットを用いて複数のベースラインと比較して評価された。実験の結果、本モデルがリアルタイム処理を実現可能であり、既存のモデルを上回る性能を発揮することが確認された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

対照学習に基づく深層潜在マスキングによる音楽ソース分離 | 記事 | HyperAI超神経