il y a 8 mois

Chia-Yu Hung Navonil Majumder Zhifeng Kong Ambuj Mehrish Rafael Valle Bryan Catanzaro Soujanya Poria

Résumé

Nous présentons TangoFlux, un modèle génératif Texte-vers-Audio (TTA) efficacecomptant 515 millions de paramètres, capable de générer jusqu'à 30 secondes d'audio à 44,1 kHzen seulement 3,7 secondes sur une seule carte GPU A40. Un défi majeur dans l'alignement des modèles TTAréside dans la difficulté de créer des paires de préférence, car le TTA manque de mécanismes structuréstels que des récompenses vérifiables ou des réponses standards disponibles pour les grands modèles linguistiques (LLMs).Pour remédier à cela, nous proposons l'Optimisation des Préférences Classées par CLAP (CRPO), un cadre novateur qui génère et optimise itérativementdes données de préférence afin d'améliorer l'alignement TTA. Nous montrons que l'ensemble de données audio de préférence généré à l'aide du CRPOsurpasse les alternatives existantes. Grâce à ce cadre, TangoFlux atteint des performances de pointe tant sur les évaluations objectives que subjectives.Nous mettons en open source tout le code et les modèles pour soutenir des recherches ultérieures en génération TTA.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Text-to-Audio

Traitement Audio Et Vocal

Chia-Yu Hung Navonil Majumder Zhifeng Kong Ambuj Mehrish Rafael Valle Bryan Catanzaro Soujanya Poria

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Text-to-Audio

Traitement Audio Et Vocal

Chia-Yu Hung Navonil Majumder Zhifeng Kong Ambuj Mehrish Rafael Valle Bryan Catanzaro Soujanya Poria

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

TangoFlux : Génération de texte en audio ultra-rapide et fidèle grâce à l'appariement de flux et à l'optimisation des préférences classées par Clap

Chia-Yu Hung Navonil Majumder Zhifeng Kong Ambuj Mehrish Rafael Valle Bryan Catanzaro Soujanya Poria

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

TangoFlux : Génération de texte en audio ultra-rapide et fidèle grâce à l'appariement de flux et à l'optimisation des préférences classées par Clap

Chia-Yu Hung Navonil Majumder Zhifeng Kong Ambuj Mehrish Rafael Valle Bryan Catanzaro Soujanya Poria

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

TangoFlux : Génération de texte en audio ultra-rapide et fidèle grâce à l'appariement de flux et à l'optimisation des préférences classées par Clap

Chia-Yu Hung Navonil Majumder Zhifeng Kong Ambuj Mehrish Rafael Valle Bryan Catanzaro Soujanya Poria

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters