HyperAIHyperAI

Command Palette

Search for a command to run...

AudioLM : une approche de modélisation de langage pour la génération audio

Résumé

Nous présentons AudioLM, un cadre pour la génération audio de haute qualité avec une cohérence à long terme. AudioLM transforme l’audio d’entrée en une séquence de tokens discrets, et reformule la tâche de génération audio comme un problème de modélisation de langage dans cet espace de représentation. Nous montrons comment les tokeniseurs audio existants offrent différents compromis entre la qualité de reconstruction et la structure à long terme, et nous proposons une stratégie hybride de tokenisation permettant de réaliser les deux objectifs. Plus précisément, nous exploitons les activations discrétisées d’un modèle de langage masqué pré-entraîné sur des données audio afin de capturer la structure à long terme, tout en utilisant les codes discrets produits par un codec audio neuronal pour assurer une synthèse de haute qualité. En étant entraîné sur de grandes corpora de signaux audio bruts, AudioLM apprend à générer des prolongements naturels et cohérents à partir de courts prompts. Lorsqu’il est entraîné sur du discours, et sans aucune transcription ni annotation, AudioLM produit des prolongements de discours syntaxiquement et sémantiquement plausibles, tout en préservant l’identité du locuteur et la prosodie, même pour des locuteurs inconnus. En outre, nous démontrons que notre approche s’étend au-delà du discours, en générant des prolongements cohérents de musique pour piano, malgré un entraînement sans aucune représentation symbolique de la musique.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp