HyperAIHyperAI

Command Palette

Search for a command to run...

TangoFlux: フロウマッチングとクラップランク付き嗜好最適化を用いた超高速かつ高精度なテキストからオーディオの生成

Chia-Yu Hung Navonil Majumder Zhifeng Kong Ambuj Mehrish Rafael Valle Bryan Catanzaro Soujanya Poria

概要

私たちは、515Mのパラメータを持つ効率的なテキストからオーディオ(TTA)生成モデルであるTangoFluxを紹介します。このモデルは、単一のA40 GPU上でわずか3.7秒で最大30秒の44.1kHzオーディオを生成することができます。TTAモデルのアライメントにおける主要な課題は、大規模言語モデル(LLMs)で利用可能な検証可能な報酬やゴールドスタンダードの回答のような構造化されたメカニズムが欠如しているため、好みのペアを作成することが困難な点にあります。これを解決するために、我々はCLAP-Ranked Preference Optimization (CRPO)と呼ばれる新しいフレームワークを提案します。このフレームワークは、好みデータを反復的に生成し最適化することでTTAアライメントを強化します。我々は、CRPOを使用して生成されたオーディオ好みデータセットが既存の代替手段よりも優れていることを示しています。このフレームワークにより、TangoFluxは客観的および主観的なベンチマークにおいて最先端の性能を達成しています。私たちはすべてのコードとモデルをオープンソース化し、TTA生成に関するさらなる研究を支援することにしました。科技/学术术语处理:- Text-to-Audio (TTA): テキストからオーディオ(TTA)- Large Language Models (LLMs): 大規模言語モデル(LLMs)- CLAP-Ranked Preference Optimization (CRPO): CLAP-Ranked 好み最適化(CRPO)


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています