Make-An-Audio 2 : Génération de texte vers audio améliorée temporellement

Les grands modèles de diffusion ont connu un succès notable dans les tâches de synthèse texte-vers-audio (T2A), mais ils souffrent souvent de problèmes courants tels que le décalage sémantique et la mauvaise cohérence temporelle, dus à une compréhension limitée du langage naturel et à la rareté des données. De plus, les structures spatiales 2D largement utilisées dans les travaux T2A conduisent à une qualité audio insatisfaisante lors de la génération d'échantillons audio de longueur variable, car elles ne privilégient pas suffisamment l'information temporelle. Pour relever ces défis, nous proposons Make-an-Audio 2, une méthode T2A basée sur la diffusion latente qui s'appuie sur le succès de Make-an-Audio. Notre approche inclut plusieurs techniques visant à améliorer l'alignement sémantique et la cohérence temporelle : premièrement, nous utilisons des grands modèles linguistiques pré-entraînés (LLMs) pour analyser le texte en paires structurées <événement & ordre> afin d'améliorer la capture de l'information temporelle. Nous introduisons également un autre encodeur de texte structuré pour faciliter l'apprentissage de l'alignement sémantique au cours du processus de débruitage par diffusion. Pour améliorer les performances de génération de longueur variable et renforcer l'extraction d'informations temporelles, nous concevons un débruiteur par diffusion basé sur un Transformers à alimentation directe (feed-forward). Enfin, nous utilisons des LLMs pour augmenter et transformer une grande quantité de données audio-étiquetées en ensembles de données audio-texte, afin d'atténuer le problème de rareté des données temporelles. Des expériences approfondies montrent que notre méthode surpasses les modèles baselines tant sur les métriques objectives que subjectives, et réalise des gains significatifs en termes de compréhension des informations temporelles, d'alignement sémantique et de qualité sonore.