2ヶ月前
TangoFlux: フロウマッチングとクラップランク付き嗜好最適化を用いた超高速かつ高精度なテキストからオーディオの生成
Chia-Yu Hung, Navonil Majumder, Zhifeng Kong, Ambuj Mehrish, Rafael Valle, Bryan Catanzaro, Soujanya Poria

要約
私たちは、515Mのパラメータを持つ効率的なテキストからオーディオ(TTA)生成モデルであるTangoFluxを紹介します。このモデルは、単一のA40 GPU上でわずか3.7秒で最大30秒の44.1kHzオーディオを生成することができます。TTAモデルのアライメントにおける主要な課題は、大規模言語モデル(LLMs)で利用可能な検証可能な報酬やゴールドスタンダードの回答のような構造化されたメカニズムが欠如しているため、好みのペアを作成することが困難な点にあります。これを解決するために、我々はCLAP-Ranked Preference Optimization (CRPO)と呼ばれる新しいフレームワークを提案します。このフレームワークは、好みデータを反復的に生成し最適化することでTTAアライメントを強化します。我々は、CRPOを使用して生成されたオーディオ好みデータセットが既存の代替手段よりも優れていることを示しています。このフレームワークにより、TangoFluxは客観的および主観的なベンチマークにおいて最先端の性能を達成しています。私たちはすべてのコードとモデルをオープンソース化し、TTA生成に関するさらなる研究を支援することにしました。科技/学术术语处理:- Text-to-Audio (TTA): テキストからオーディオ(TTA)- Large Language Models (LLMs): 大規模言語モデル(LLMs)- CLAP-Ranked Preference Optimization (CRPO): CLAP-Ranked 好み最適化(CRPO)