日付

3ヶ月前

サイズ

252.06 MB

タグ

音声認識

ライセンス

MIT

GitHub

SonyResearch/diffvox

論文URL

2504.14735

1. チュートリアルの概要

DiffVoxプロジェクトは、ソニーAI、ソニー株式会社、ロンドン大学クイーン・メアリー校の研究チームによって2025年5月に共同で開始されました。このモデルの核となる機能は、高度な推論時間最適化手法と、革新的なガウス事前制約の導入にあります。これにより、人間の生の音声録音を、ターゲットリファレンスに聴感上近似し、パラメータに関してはプロフェッショナルミキシング基準に準拠した高品質なオーディオへとインテリジェントに変換することができます。これは、人間の声のスタイル変換に焦点を当てた高度なモデルであり、関連する研究論文には以下が含まれます… DiffVox: 音声効果分布の捕捉と分析のための微分可能モデル（DAFx25で受信）およびガウス分布を用いたボーカルエフェクトスタイル転送の推論時間最適化の改善(WASPAA 2025 に採択)。

このチュートリアルでは、デフォルトのリソースとして単一の RTX 5090 グラフィックカードを使用しますが、プログラムの起動には、最小で単一の RTX 4090 グラフィックカードも使用できます。

2. プロジェクト例

3. 操作手順

1. コンテナを起動します

2. ウェブページに入ったら、モデルを使用することができます

「Bad Gateway」と表示される場合は、モデルが初期化中です。2～3分ほどお待ちいただき、ページを更新してください。Safariをご利用の場合、音声が直接再生されない場合がありますので、事前にダウンロードしてください。

引用情報

このプロジェクトの引用情報は次のとおりです。

@inproceedings{ycy2025diffvox,
     title={DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Ben Hayes and Wei-Hsiang Liao and György Fazekas and Yuki Mitsufuji},
     year={2025},
     booktitle={Proc. DAFx},
}

@inproceedings{ycy2025ito,
     title={Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Wei-Hsiang Liao and Yuki Mitsufuji and György Fazekas},
     year={2025},
     booktitle={Proc. WASPAA},
}

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このNotebookを実行 Discordで議論

日付

3ヶ月前

サイズ

252.06 MB

タグ

音声認識

ライセンス

MIT

GitHub

SonyResearch/diffvox

論文URL

2504.14735

1. チュートリアルの概要

このチュートリアルでは、デフォルトのリソースとして単一の RTX 5090 グラフィックカードを使用しますが、プログラムの起動には、最小で単一の RTX 4090 グラフィックカードも使用できます。

2. プロジェクト例

3. 操作手順

1. コンテナを起動します

2. ウェブページに入ったら、モデルを使用することができます

「Bad Gateway」と表示される場合は、モデルが初期化中です。2～3分ほどお待ちいただき、ページを更新してください。Safariをご利用の場合、音声が直接再生されない場合がありますので、事前にダウンロードしてください。

引用情報

このプロジェクトの引用情報は次のとおりです。

@inproceedings{ycy2025diffvox,
     title={DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Ben Hayes and Wei-Hsiang Liao and György Fazekas and Yuki Mitsufuji},
     year={2025},
     booktitle={Proc. DAFx},
}

@inproceedings{ycy2025ito,
     title={Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Wei-Hsiang Liao and Yuki Mitsufuji and György Fazekas},
     year={2025},
     booktitle={Proc. WASPAA},
}

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

2ヶ月前

Z-Image-Turbo: 高効率6Bパラメータ画像生成モデル

2ヶ月前

vLLM+OpenWebUIを使用したVibeThinker-1.5Bのデプロイ

3ヶ月前

Dia2-TTS: リアルタイム音声合成サービス

2ヶ月前

LongCat-Image: バイリンガルテキスト駆動型画像生成システム

2ヶ月前

Supertonic: ONNXに基づく高速TTS音声合成モデル

2ヶ月前

テンセント・フンユアンビデオ・フォーリー

1ヶ月前

kyutai-tts-1.6 b-en_fr オーディオ生成

1ヶ月前

SoulX-Podcast: 複数の方言に対応したポッドキャスト品質の長文音声生成。

2ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

DiffVox: サウンド差別化モデル

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

1. コンテナを起動します

2. ウェブページに入ったら、モデルを使用することができます

関連パラメータの説明

メインコントローラーとプリセット

パラメトリックイコライザー

コンプレッサーとエキスパンダー

卓球の遅延

FDNリバーブ

引用情報

AIでAIを構築

HyperAI Newsletters

Command Palette

DiffVox: サウンド差別化モデル

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

1. コンテナを起動します

2. ウェブページに入ったら、モデルを使用することができます

関連パラメータの説明

メインコントローラーとプリセット

パラメトリックイコライザー

コンプレッサーとエキスパンダー

卓球の遅延

FDNリバーブ

引用情報

関連 ノートブック

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

Z-Image-Turbo: 高効率6Bパラメータ画像生成モデル

vLLM+OpenWebUIを使用したVibeThinker-1.5Bのデプロイ

Dia2-TTS: リアルタイム音声合成サービス

LongCat-Image: バイリンガルテキスト駆動型画像生成システム

Supertonic: ONNXに基づく高速TTS音声合成モデル

テンセント・フンユアンビデオ・フォーリー

kyutai-tts-1.6 b-en_fr オーディオ生成

SoulX-Podcast: 複数の方言に対応したポッドキャスト品質の長文音声生成。

AIでAIを構築

HyperAI Newsletters

Command Palette

DiffVox: サウンド差別化モデル

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

1. コンテナを起動します

2. ウェブページに入ったら、モデルを使用することができます

関連パラメータの説明

メインコントローラーとプリセット

パラメトリックイコライザー

コンプレッサーとエキスパンダー

卓球の遅延

FDNリバーブ

引用情報

関連 ノートブック

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

Z-Image-Turbo: 高効率6Bパラメータ画像生成モデル

vLLM+OpenWebUIを使用したVibeThinker-1.5Bのデプロイ

Dia2-TTS: リアルタイム音声合成サービス

LongCat-Image: バイリンガルテキスト駆動型画像生成システム

Supertonic: ONNXに基づく高速TTS音声合成モデル

テンセント・フンユアンビデオ・フォーリー

kyutai-tts-1.6 b-en_fr オーディオ生成

SoulX-Podcast: 複数の方言に対応したポッドキャスト品質の長文音声生成。

AIでAIを構築

HyperAI Newsletters

関連 ノートブック

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

Z-Image-Turbo: 高効率6Bパラメータ画像生成モデル

vLLM+OpenWebUIを使用したVibeThinker-1.5Bのデプロイ

Dia2-TTS: リアルタイム音声合成サービス

LongCat-Image: バイリンガルテキスト駆動型画像生成システム

Supertonic: ONNXに基づく高速TTS音声合成モデル

テンセント・フンユアンビデオ・フォーリー

kyutai-tts-1.6 b-en_fr オーディオ生成

SoulX-Podcast: 複数の方言に対応したポッドキャスト品質の長文音声生成。

関連 ノートブック

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

関連ノートブック

関連ノートブック

関連ノートブック

関連ノートブック