HyperAIHyperAI

Command Palette

Search for a command to run...

Audio Stable Ouvert

Zach Evans Julian D. Parker CJ Carr Zack Zukowski Josiah Taylor Jordi Pons

Résumé

Les modèles génératifs ouverts sont d'une importance cruciale pour la communauté, permettant des ajustements fins et servant de points de référence lors de la présentation de nouveaux modèles. Cependant, la plupart des modèles actuels de conversion texte-en-audio sont privés et non accessibles aux artistes et aux chercheurs pour qu'ils puissent s'y appuyer. Dans cet article, nous décrivons l'architecture et le processus d'entraînement d'un nouveau modèle de conversion texte-en-audio à poids ouverts, formé avec des données sous licence Creative Commons. Notre évaluation montre que les performances du modèle sont compétitives avec l'état de l'art selon diverses métriques. Notamment, les résultats FDopenl3 rapportés (mesurant la réalisme des générations) mettent en évidence son potentiel pour la synthèse stéréo de haute qualité à 44,1 kHz.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp