HyperAIHyperAI

Command Palette

Search for a command to run...

Make-An-Audio 2 : Génération de texte vers audio améliorée temporellement

Jiawei Huang Yi Ren Rongjie Huang Dongchao Yang Zhenhui Ye Chen Zhang Jinglin Liu Xiang Yin Zejun Ma Zhou Zhao

Résumé

Les grands modèles de diffusion ont connu un succès notable dans les tâches de synthèse texte-vers-audio (T2A), mais ils souffrent souvent de problèmes courants tels que le décalage sémantique et la mauvaise cohérence temporelle, dus à une compréhension limitée du langage naturel et à la rareté des données. De plus, les structures spatiales 2D largement utilisées dans les travaux T2A conduisent à une qualité audio insatisfaisante lors de la génération d'échantillons audio de longueur variable, car elles ne privilégient pas suffisamment l'information temporelle. Pour relever ces défis, nous proposons Make-an-Audio 2, une méthode T2A basée sur la diffusion latente qui s'appuie sur le succès de Make-an-Audio. Notre approche inclut plusieurs techniques visant à améliorer l'alignement sémantique et la cohérence temporelle : premièrement, nous utilisons des grands modèles linguistiques pré-entraînés (LLMs) pour analyser le texte en paires structurées <événement & ordre> afin d'améliorer la capture de l'information temporelle. Nous introduisons également un autre encodeur de texte structuré pour faciliter l'apprentissage de l'alignement sémantique au cours du processus de débruitage par diffusion. Pour améliorer les performances de génération de longueur variable et renforcer l'extraction d'informations temporelles, nous concevons un débruiteur par diffusion basé sur un Transformers à alimentation directe (feed-forward). Enfin, nous utilisons des LLMs pour augmenter et transformer une grande quantité de données audio-étiquetées en ensembles de données audio-texte, afin d'atténuer le problème de rareté des données temporelles. Des expériences approfondies montrent que notre méthode surpasses les modèles baselines tant sur les métriques objectives que subjectives, et réalise des gains significatifs en termes de compréhension des informations temporelles, d'alignement sémantique et de qualité sonore.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Make-An-Audio 2 : Génération de texte vers audio améliorée temporellement | Articles | HyperAI