HyperAIHyperAI

Command Palette

Search for a command to run...

تَسْكِين البيانات والمحولات لِتَوليد الصوت

Moayed Haji-Ali Willi Menapace Aliaksandr Siarohin Guha Balakrishnan Vicente Ordonez

الملخص

تُعرقل قابلية التوسع لمحرّكات الصوت البيئي بسبب نقص البيانات، وضعف جودة الوصف النصي، وقيود التوسع في هيكل النموذج. تتناول هذه الدراسة هذه التحديات من خلال تطوير كلاً من البيانات وتوسيع النموذج. أولاً، نقترح خط أنابيب فعّالاً وقابلًا للتوسع لجمع البيانات مخصصًا لتنميط الصوت البيئي، مما يؤدي إلى إنشاء مجموعة بيانات AutoReCap-XL، وهي أكبر مجموعة بيانات صوتية-نصية بيئية، تضم أكثر من 47 مليون مقطع. ولضمان تسميات نصية عالية الجودة، نقترح نموذج AutoCap، وهو نموذج تلقائي عالي الجودة لتسمية الصوت. وباعتماد نموذج Q-Former واستغلال بيانات الميتا-بيانات الصوتية، يُحسّن AutoCap بشكل كبير جودة التسميات، ليصل إلى درجة CIDEr قدرها 83.2، أي تحسن بنسبة 3.2% مقارنةً بالنماذج السابقة لتسمية الصوت. وأخيرًا، نقترح GenAu، وهي بنية توليد صوتي قابلة للتوسع تعتمد على المحولات (Transformer)، ونقوم بتوسيعها إلى 1.25 مليار معلمة. ونُظهر فوائد هذا النموذج من خلال التوسع في البيانات باستخدام تسميات صوتية مُصطنعة، وكذلك التوسع في حجم النموذج. مقارنةً بمحرّكات الصوت الأساسية التي تم تدريبها بنفس الحجم والحجم النصي للبيانات، يُظهر GenAu تحسينات كبيرة بنسبة 4.7% في مؤشر FAD، و11.1% في مؤشر IS، و13.5% في مؤشر CLAP. وتم إتاحة الكود، ونقط التحقق للنموذج، ومجموعة البيانات بشكل عام.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp