il y a 8 mois

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript4

Résumé

Les grands modèles de langage (LLM) ont démontré leur capacité à traiter une variété de tâches génératives. Cet article présente le système UniAudio, qui, contrairement aux approches précédentes spécifiques à chaque tâche, utilise des techniques de LLM pour générer plusieurs types d'audio (y compris la parole, les sons, la musique et le chant) en fonction des conditions d'entrée données. Le processus de UniAudio se déroule en trois étapes : 1) il tokenise tous les types d'audio cibles ainsi que d'autres modalités conditionnelles, 2) il concatène le couple source-cible en une seule séquence, et 3) il effectue une prédiction du prochain token à l'aide d'un LLM. De plus, un modèle Transformer multi-échelle est proposé pour gérer les séquences excessivement longues causées par le codec neuronal basé sur la quantification vectorielle résiduelle lors de la tokenisation. L'entraînement de UniAudio a été élargi à 165 000 heures d'audio et 1 milliard de paramètres, basé sur toutes les tâches génératives, dans le but d'acquérir des connaissances préalables suffisantes non seulement sur les propriétés intrinsèques de l'audio mais aussi sur les relations inter-modales entre l'audio et d'autres modalités. Par conséquent, le modèle UniAudio entraîné a le potentiel de devenir un modèle fondamental pour la génération universelle d'audio : il montre une forte capacité dans toutes les tâches entraînées et peut soutenir sans heurts de nouvelles tâches de génération audio après un simple ajustement fin. Les expériences démontrent que UniAudio obtient des résultats au niveau de l'état de l'art ou au moins compétitifs sur la plupart des 11 tâches. Une démonstration et le code sont disponibles à l'adresse suivante : https://github.com/yangdongchao/UniAudio

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Text-to-Audio

Any-to-Any

Apprentissage Multi-tâches

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript4

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Text-to-Audio

Any-to-Any

Apprentissage Multi-tâches

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript4

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

UniAudio : Un modèle fondamental audio vers la génération universelle d'audio

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript42 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

UniAudio : Un modèle fondamental audio vers la génération universelle d'audio

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript42 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

UniAudio : Un modèle fondamental audio vers la génération universelle d'audio

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript42 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript4

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript4

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript4