HyperAIHyperAI

Command Palette

Search for a command to run...

UniAudio : Un modèle fondamental audio vers la génération universelle d'audio

Résumé

Les grands modèles de langage (LLM) ont démontré leur capacité à traiter une variété de tâches génératives. Cet article présente le système UniAudio, qui, contrairement aux approches précédentes spécifiques à chaque tâche, utilise des techniques de LLM pour générer plusieurs types d'audio (y compris la parole, les sons, la musique et le chant) en fonction des conditions d'entrée données. Le processus de UniAudio se déroule en trois étapes : 1) il tokenise tous les types d'audio cibles ainsi que d'autres modalités conditionnelles, 2) il concatène le couple source-cible en une seule séquence, et 3) il effectue une prédiction du prochain token à l'aide d'un LLM. De plus, un modèle Transformer multi-échelle est proposé pour gérer les séquences excessivement longues causées par le codec neuronal basé sur la quantification vectorielle résiduelle lors de la tokenisation. L'entraînement de UniAudio a été élargi à 165 000 heures d'audio et 1 milliard de paramètres, basé sur toutes les tâches génératives, dans le but d'acquérir des connaissances préalables suffisantes non seulement sur les propriétés intrinsèques de l'audio mais aussi sur les relations inter-modales entre l'audio et d'autres modalités. Par conséquent, le modèle UniAudio entraîné a le potentiel de devenir un modèle fondamental pour la génération universelle d'audio : il montre une forte capacité dans toutes les tâches entraînées et peut soutenir sans heurts de nouvelles tâches de génération audio après un simple ajustement fin. Les expériences démontrent que UniAudio obtient des résultats au niveau de l'état de l'art ou au moins compétitifs sur la plupart des 11 tâches. Une démonstration et le code sont disponibles à l'adresse suivante : https://github.com/yangdongchao/UniAudio


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp