الملخص

قد أثبتت نماذج اللغات الكبيرة (LLM) قدرتها على التعامل مع مجموعة متنوعة من المهام التوليدية. يقدم هذا البحث نظام UniAudio، الذي يعتمد على تقنيات نماذج اللغات الكبيرة لتقديم أنواع متعددة من الصوت (تشمل الكلام، الأصوات، الموسيقى والغناء) بناءً على شروط الإدخال المعطاة. يتبع نظام UniAudio الخطوات التالية: 1) يقوم بتحويل جميع أنواع الصوت المستهدفة إلى رموز مع وضع الشروط الأخرى في الاعتبار، 2) يربط الزوج المصدر-الهدف كمتتابعة واحدة، و3) يقوم بتوقع الرمز التالي باستخدام نموذج اللغة الكبير (LLM). بالإضافة إلى ذلك، تم اقتراح نموذج Transformer متعدد المقاييس للتعامل مع المتتابعات الطويلة جدًا التي تنتج عن الترميز العصبي القائم على كمية المتجهات الباقية أثناء عملية تحويل الرموز.تم توسيع نطاق تدريب نظام UniAudio ليشمل 165 ألف ساعة من الصوت و1 مليار معلمة، وذلك استنادًا إلى جميع المهام التوليدية، بهدف الحصول على معرفة سابقة كافية ليس فقط في الخصائص الذاتية للصوت ولكن أيضًا في العلاقات بين الصوت وأنواع البيانات الأخرى. لذلك، يمتلك النموذج المدرب UniAudio القدرة على أن يصبح نموذجًا أساسيًا لتوليد الصوت الشامل: حيث يظهر قدرة قوية في جميع المهام التي تم تدريبه عليها ويمكنه دعم مهام جديدة لتوليد الصوت بسلاسة بعد ضبط بسيط. تبين التجارب أن UniAudio حقق أفضل النتائج أو على الأقل نتائج تنافسية في معظم المهام الـ11. يمكن الوصول إلى عرض التوضيحي والكود عبر الرابط:https://github.com/yangdongchao/UniAudio

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

UniAudio: نموذج أساسي للصوت نحو إنشاء الصوت الشامل

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript42 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

UniAudio: نموذج أساسي للصوت نحو إنشاء الصوت الشامل

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript42 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

UniAudio: نموذج أساسي للصوت نحو إنشاء الصوت الشامل

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript42 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript4

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript4

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript4