HyperAIHyperAI

Command Palette

Search for a command to run...

Vocos : Réduire l'écart entre les vocodeurs neuronaux temporels et basés sur la transformée de Fourier pour la synthèse audio haute qualité

Hubert Siuzdak

Résumé

Les avancées récentes dans le domaine de la vocodisation neuronale sont principalement alimentées par les réseaux adversariaux génératifs (GANs) fonctionnant dans le domaine temporel. Bien que cette approche soit efficace, elle ignore le biais inductif offert par les représentations temps-fréquence, entraînant des opérations de suréchantillonnage redondantes et coûteuses en termes de calcul. La représentation temps-fréquence basée sur la transformation de Fourier constitue une alternative attrayante, plus conforme à la perception auditive humaine et bénéficiant de puissants algorithmes rapides bien établis pour son calcul. Néanmoins, la reconstruction directe des spectrogrammes à valeurs complexes a longtemps posé problème, principalement en raison des difficultés liées au recouvrement de la phase. Cette étude vise à combler cette lacune en proposant Vocos, un nouveau modèle capable de générer directement les coefficients spectraux de Fourier. Vocos atteint non seulement les performances de pointe en qualité audio, comme le démontrent nos évaluations, mais améliore également de manière significative l'efficacité computationnelle, en offrant une accélération d’un ordre de grandeur par rapport aux approches actuelles de vocodisation neuronale dans le domaine temporel. Le code source et les poids du modèle ont été rendus disponibles sous licence open-source à l’adresse suivante : https://github.com/gemelo-ai/vocos.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp