il y a un mois

Résumé

Les modèles linguistiques audio (Audio Language Models, ALM) sont devenus le paradigme dominant pour la génération de parole et de musique, en représentant l’audio sous la forme de séquences de tokens discrets. Toutefois, contrairement aux tokens textuels, qui sont inversibles, les tokens audio sont extraits à partir de codecs à perte avec un débit binaire limité. En conséquence, améliorer la qualité audio nécessite de générer un plus grand nombre de tokens, ce qui entraîne un compromis entre fidélité et coût computationnel. Nous abordons cette limitation en étudiant les modèles linguistiques audio continus (Continuous Audio Language Models, CALM). Ces modèles reposent sur un grand noyau Transformer qui produit une représentation contextuelle à chaque pas de temps. Cette information séquentielle sert ensuite de conditionnement à un réseau de neurones multicouche (MLP), qui génère la prochaine trame continue d’un modèle audio VAE via une approche de modélisation de cohérence. En évitant la compression à perte, CALM atteint une qualité supérieure à un coût computationnel plus faible que ses homologues discrets. Des expériences menées sur la parole et la musique démontrent une efficacité et une fidélité améliorées par rapport aux meilleurs modèles discrets actuels, permettant ainsi une génération audio légère et de haute qualité. Des exemples sont disponibles à l’adresse suivante : [URL]. Enfin, nous mettons librement à disposition Pocket TTS, un modèle open source de synthèse vocale à partir de texte de 100 millions de paramètres, capable de fonctionner à une vitesse supérieure à temps réel sur un processeur de laptop : [URL].

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a un mois

Traitement Audio Et Vocal

Text-to-Speech

Simon Rouard Manu Orsini Axel Roebel Neil Zeghidour Alexandre Défossez

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a un mois

Traitement Audio Et Vocal

Text-to-Speech

Simon Rouard Manu Orsini Axel Roebel Neil Zeghidour Alexandre Défossez

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Modèles linguistiques audio continus

Simon Rouard Manu Orsini Axel Roebel Neil Zeghidour Alexandre Défossez

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Modèles linguistiques audio continus

Simon Rouard Manu Orsini Axel Roebel Neil Zeghidour Alexandre Défossez

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Modèles linguistiques audio continus

Simon Rouard Manu Orsini Axel Roebel Neil Zeghidour Alexandre Défossez

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters