8ヶ月前

音声および音声処理

データセット

AIインフラストラクチャ

オーディオ

Chia-Yu Hung Navonil Majumder Zhifeng Kong Ambuj Mehrish Rafael Valle Bryan Catanzaro Soujanya Poria

概要

私たちは、515Mのパラメータを持つ効率的なテキストからオーディオ（TTA）生成モデルであるTangoFluxを紹介します。このモデルは、単一のA40 GPU上でわずか3.7秒で最大30秒の44.1kHzオーディオを生成することができます。TTAモデルのアライメントにおける主要な課題は、大規模言語モデル（LLMs）で利用可能な検証可能な報酬やゴールドスタンダードの回答のような構造化されたメカニズムが欠如しているため、好みのペアを作成することが困難な点にあります。これを解決するために、我々はCLAP-Ranked Preference Optimization (CRPO)と呼ばれる新しいフレームワークを提案します。このフレームワークは、好みデータを反復的に生成し最適化することでTTAアライメントを強化します。我々は、CRPOを使用して生成されたオーディオ好みデータセットが既存の代替手段よりも優れていることを示しています。このフレームワークにより、TangoFluxは客観的および主観的なベンチマークにおいて最先端の性能を達成しています。私たちはすべてのコードとモデルをオープンソース化し、TTA生成に関するさらなる研究を支援することにしました。科技/学术术语处理：- Text-to-Audio (TTA): テキストからオーディオ（TTA）- Large Language Models (LLMs): 大規模言語モデル（LLMs）- CLAP-Ranked Preference Optimization (CRPO): CLAP-Ranked 好み最適化（CRPO）

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

音声および音声処理

データセット

AIインフラストラクチャ

オーディオ

Chia-Yu Hung Navonil Majumder Zhifeng Kong Ambuj Mehrish Rafael Valle Bryan Catanzaro Soujanya Poria

概要

私たちは、515Mのパラメータを持つ効率的なテキストからオーディオ（TTA）生成モデルであるTangoFluxを紹介します。このモデルは、単一のA40 GPU上でわずか3.7秒で最大30秒の44.1kHzオーディオを生成することができます。TTAモデルのアライメントにおける主要な課題は、大規模言語モデル（LLMs）で利用可能な検証可能な報酬やゴールドスタンダードの回答のような構造化されたメカニズムが欠如しているため、好みのペアを作成することが困難な点にあります。これを解決するために、我々はCLAP-Ranked Preference Optimization (CRPO)と呼ばれる新しいフレームワークを提案します。このフレームワークは、好みデータを反復的に生成し最適化することでTTAアライメントを強化します。我々は、CRPOを使用して生成されたオーディオ好みデータセットが既存の代替手段よりも優れていることを示しています。このフレームワークにより、TangoFluxは客観的および主観的なベンチマークにおいて最先端の性能を達成しています。私たちはすべてのコードとモデルをオープンソース化し、TTA生成に関するさらなる研究を支援することにしました。科技/学术术语处理：- Text-to-Audio (TTA): テキストからオーディオ（TTA）- Large Language Models (LLMs): 大規模言語モデル（LLMs）- CLAP-Ranked Preference Optimization (CRPO): CLAP-Ranked 好み最適化（CRPO）

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています