il y a 11 jours

Vocos : Réduire l'écart entre les vocodeurs neuronaux temporels et basés sur la transformée de Fourier pour la synthèse audio haute qualité

Hubert Siuzdak

Résumé

Les avancées récentes dans le domaine de la vocodisation neuronale sont principalement alimentées par les réseaux adversariaux génératifs (GANs) fonctionnant dans le domaine temporel. Bien que cette approche soit efficace, elle ignore le biais inductif offert par les représentations temps-fréquence, entraînant des opérations de suréchantillonnage redondantes et coûteuses en termes de calcul. La représentation temps-fréquence basée sur la transformation de Fourier constitue une alternative attrayante, plus conforme à la perception auditive humaine et bénéficiant de puissants algorithmes rapides bien établis pour son calcul. Néanmoins, la reconstruction directe des spectrogrammes à valeurs complexes a longtemps posé problème, principalement en raison des difficultés liées au recouvrement de la phase. Cette étude vise à combler cette lacune en proposant Vocos, un nouveau modèle capable de générer directement les coefficients spectraux de Fourier. Vocos atteint non seulement les performances de pointe en qualité audio, comme le démontrent nos évaluations, mais améliore également de manière significative l'efficacité computationnelle, en offrant une accélération d’un ordre de grandeur par rapport aux approches actuelles de vocodisation neuronale dans le domaine temporel. Le code source et les poids du modèle ont été rendus disponibles sous licence open-source à l’adresse suivante : https://github.com/gemelo-ai/vocos.