HyperAIHyperAI
il y a 2 mois

Audio Stable Ouvert

Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
Audio Stable Ouvert
Résumé

Les modèles génératifs ouverts sont d'une importance cruciale pour la communauté, permettant des ajustements fins et servant de points de référence lors de la présentation de nouveaux modèles. Cependant, la plupart des modèles actuels de conversion texte-en-audio sont privés et non accessibles aux artistes et aux chercheurs pour qu'ils puissent s'y appuyer. Dans cet article, nous décrivons l'architecture et le processus d'entraînement d'un nouveau modèle de conversion texte-en-audio à poids ouverts, formé avec des données sous licence Creative Commons. Notre évaluation montre que les performances du modèle sont compétitives avec l'état de l'art selon diverses métriques. Notamment, les résultats FDopenl3 rapportés (mesurant la réalisme des générations) mettent en évidence son potentiel pour la synthèse stéréo de haute qualité à 44,1 kHz.

Audio Stable Ouvert | Articles de recherche récents | HyperAI