HyperAIHyperAI
il y a 2 mois

UniAudio : Un modèle fondamental audio vers la génération universelle d'audio

Yang, Dongchao ; Tian, Jinchuan ; Tan, Xu ; Huang, Rongjie ; Liu, Songxiang ; Chang, Xuankai ; Shi, Jiatong ; Zhao, Sheng ; Bian, Jiang ; Zhao, Zhou ; Wu, Xixin ; Meng, Helen
UniAudio : Un modèle fondamental audio vers la génération universelle d'audio
Résumé

Les grands modèles de langage (LLM) ont démontré leur capacité à traiter une variété de tâches génératives. Cet article présente le système UniAudio, qui, contrairement aux approches précédentes spécifiques à chaque tâche, utilise des techniques de LLM pour générer plusieurs types d'audio (y compris la parole, les sons, la musique et le chant) en fonction des conditions d'entrée données. Le processus de UniAudio se déroule en trois étapes : 1) il tokenise tous les types d'audio cibles ainsi que d'autres modalités conditionnelles, 2) il concatène le couple source-cible en une seule séquence, et 3) il effectue une prédiction du prochain token à l'aide d'un LLM. De plus, un modèle Transformer multi-échelle est proposé pour gérer les séquences excessivement longues causées par le codec neuronal basé sur la quantification vectorielle résiduelle lors de la tokenisation. L'entraînement de UniAudio a été élargi à 165 000 heures d'audio et 1 milliard de paramètres, basé sur toutes les tâches génératives, dans le but d'acquérir des connaissances préalables suffisantes non seulement sur les propriétés intrinsèques de l'audio mais aussi sur les relations inter-modales entre l'audio et d'autres modalités. Par conséquent, le modèle UniAudio entraîné a le potentiel de devenir un modèle fondamental pour la génération universelle d'audio : il montre une forte capacité dans toutes les tâches entraînées et peut soutenir sans heurts de nouvelles tâches de génération audio après un simple ajustement fin. Les expériences démontrent que UniAudio obtient des résultats au niveau de l'état de l'art ou au moins compétitifs sur la plupart des 11 tâches. Une démonstration et le code sont disponibles à l'adresse suivante : https://github.com/yangdongchao/UniAudio

UniAudio : Un modèle fondamental audio vers la génération universelle d'audio | Articles de recherche récents | HyperAI