HyperAIHyperAI
منذ 2 أشهر

UniAudio: نموذج أساسي للصوت نحو إنشاء الصوت الشامل

Yang, Dongchao ; Tian, Jinchuan ; Tan, Xu ; Huang, Rongjie ; Liu, Songxiang ; Chang, Xuankai ; Shi, Jiatong ; Zhao, Sheng ; Bian, Jiang ; Zhao, Zhou ; Wu, Xixin ; Meng, Helen
UniAudio: نموذج أساسي للصوت نحو إنشاء الصوت الشامل
الملخص

قد أثبتت نماذج اللغات الكبيرة (LLM) قدرتها على التعامل مع مجموعة متنوعة من المهام التوليدية. يقدم هذا البحث نظام UniAudio، الذي يعتمد على تقنيات نماذج اللغات الكبيرة لتقديم أنواع متعددة من الصوت (تشمل الكلام، الأصوات، الموسيقى والغناء) بناءً على شروط الإدخال المعطاة. يتبع نظام UniAudio الخطوات التالية: 1) يقوم بتحويل جميع أنواع الصوت المستهدفة إلى رموز مع وضع الشروط الأخرى في الاعتبار، 2) يربط الزوج المصدر-الهدف كمتتابعة واحدة، و3) يقوم بتوقع الرمز التالي باستخدام نموذج اللغة الكبير (LLM). بالإضافة إلى ذلك، تم اقتراح نموذج Transformer متعدد المقاييس للتعامل مع المتتابعات الطويلة جدًا التي تنتج عن الترميز العصبي القائم على كمية المتجهات الباقية أثناء عملية تحويل الرموز.تم توسيع نطاق تدريب نظام UniAudio ليشمل 165 ألف ساعة من الصوت و1 مليار معلمة، وذلك استنادًا إلى جميع المهام التوليدية، بهدف الحصول على معرفة سابقة كافية ليس فقط في الخصائص الذاتية للصوت ولكن أيضًا في العلاقات بين الصوت وأنواع البيانات الأخرى. لذلك، يمتلك النموذج المدرب UniAudio القدرة على أن يصبح نموذجًا أساسيًا لتوليد الصوت الشامل: حيث يظهر قدرة قوية في جميع المهام التي تم تدريبه عليها ويمكنه دعم مهام جديدة لتوليد الصوت بسلاسة بعد ضبط بسيط. تبين التجارب أن UniAudio حقق أفضل النتائج أو على الأقل نتائج تنافسية في معظم المهام الـ11. يمكن الوصول إلى عرض التوضيحي والكود عبر الرابط:https://github.com/yangdongchao/UniAudio

UniAudio: نموذج أساسي للصوت نحو إنشاء الصوت الشامل | أحدث الأوراق البحثية | HyperAI