AudioLM : une approche de modélisation de langage pour la génération audio

Nous présentons AudioLM, un cadre pour la génération audio de haute qualité avec une cohérence à long terme. AudioLM transforme l’audio d’entrée en une séquence de tokens discrets, et reformule la tâche de génération audio comme un problème de modélisation de langage dans cet espace de représentation. Nous montrons comment les tokeniseurs audio existants offrent différents compromis entre la qualité de reconstruction et la structure à long terme, et nous proposons une stratégie hybride de tokenisation permettant de réaliser les deux objectifs. Plus précisément, nous exploitons les activations discrétisées d’un modèle de langage masqué pré-entraîné sur des données audio afin de capturer la structure à long terme, tout en utilisant les codes discrets produits par un codec audio neuronal pour assurer une synthèse de haute qualité. En étant entraîné sur de grandes corpora de signaux audio bruts, AudioLM apprend à générer des prolongements naturels et cohérents à partir de courts prompts. Lorsqu’il est entraîné sur du discours, et sans aucune transcription ni annotation, AudioLM produit des prolongements de discours syntaxiquement et sémantiquement plausibles, tout en préservant l’identité du locuteur et la prosodie, même pour des locuteurs inconnus. En outre, nous démontrons que notre approche s’étend au-delà du discours, en générant des prolongements cohérents de musique pour piano, malgré un entraînement sans aucune représentation symbolique de la musique.