HyperAIHyperAI
il y a 16 jours

Diffsound : Modèle de diffusion discret pour la génération sonore à partir de texte

Dongchao Yang, Jianwei Yu, Helin Wang, Wen Wang, Chao Weng, Yuexian Zou, Dong Yu
Diffsound : Modèle de diffusion discret pour la génération sonore à partir de texte
Résumé

La génération d’effets sonores souhaités par les êtres humains constitue un sujet important. Toutefois, peu d’études se sont jusqu’à présent penchées sur ce domaine en matière de génération sonore. Dans cette recherche, nous explorons la génération sonore conditionnée à une requête textuelle et proposons un nouveau cadre de génération sonore à partir du texte, composé d’un encodeur de texte, d’un VQ-VAE (Variational Autoencoder à quantification vectorielle), d’un décodeur et d’un vocodeur. Ce cadre utilise d’abord le décodeur pour transformer les caractéristiques textuelles extraites par l’encodeur de texte en spectrogramme mel, avec l’aide du VQ-VAE, puis le vocodeur transforme le spectrogramme mel généré en onde sonore. Nous avons constaté que le décodeur joue un rôle déterminant sur les performances de génération. Par conséquent, nous nous concentrons dans cette étude sur la conception d’un décodeur efficace. Nous commençons par un décodeur autoregressif classique, déjà établi comme méthode de pointe dans les travaux antérieurs sur la génération sonore. Toutefois, le décodeur autoregressif prédit toujours les tokens du spectrogramme mel un par un, dans un ordre séquentiel, ce qui introduit un biais unidirectionnel ainsi que des accumulations d’erreurs. En outre, avec un tel décodeur, le temps de génération sonore augmente linéairement avec la durée du son. Pour surmonter ces limitations inhérentes aux décodeurs autoregressifs, nous proposons un nouveau décodeur non autoregressif basé sur un modèle de diffusion discrète, nommé Diffsound. Plus précisément, Diffsound prédit tous les tokens du spectrogramme mel en une seule étape, puis affine progressivement ces prédictions dans les étapes suivantes, permettant ainsi d’obtenir des résultats optimaux après plusieurs itérations. Nos expériences montrent que Diffsound non seulement produit des résultats supérieurs en génération sonore à partir du texte par rapport au décodeur autoregressif, mais présente également une vitesse de génération nettement plus rapide : par exemple, une note moyenne de qualité subjective (MOS) de 3,56 contre 2,786, et une vitesse de génération cinq fois supérieure à celle du décodeur autoregressif.

Diffsound : Modèle de diffusion discret pour la génération sonore à partir de texte | Articles de recherche récents | HyperAI