HyperAIHyperAI
منذ 16 أيام

تَسْكِين البيانات والمحولات لِتَوليد الصوت

Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Guha Balakrishnan, Vicente Ordonez
تَسْكِين البيانات والمحولات لِتَوليد الصوت
الملخص

تُعرقل قابلية التوسع لمحرّكات الصوت البيئي بسبب نقص البيانات، وضعف جودة الوصف النصي، وقيود التوسع في هيكل النموذج. تتناول هذه الدراسة هذه التحديات من خلال تطوير كلاً من البيانات وتوسيع النموذج. أولاً، نقترح خط أنابيب فعّالاً وقابلًا للتوسع لجمع البيانات مخصصًا لتنميط الصوت البيئي، مما يؤدي إلى إنشاء مجموعة بيانات AutoReCap-XL، وهي أكبر مجموعة بيانات صوتية-نصية بيئية، تضم أكثر من 47 مليون مقطع. ولضمان تسميات نصية عالية الجودة، نقترح نموذج AutoCap، وهو نموذج تلقائي عالي الجودة لتسمية الصوت. وباعتماد نموذج Q-Former واستغلال بيانات الميتا-بيانات الصوتية، يُحسّن AutoCap بشكل كبير جودة التسميات، ليصل إلى درجة CIDEr قدرها 83.2، أي تحسن بنسبة 3.2% مقارنةً بالنماذج السابقة لتسمية الصوت. وأخيرًا، نقترح GenAu، وهي بنية توليد صوتي قابلة للتوسع تعتمد على المحولات (Transformer)، ونقوم بتوسيعها إلى 1.25 مليار معلمة. ونُظهر فوائد هذا النموذج من خلال التوسع في البيانات باستخدام تسميات صوتية مُصطنعة، وكذلك التوسع في حجم النموذج. مقارنةً بمحرّكات الصوت الأساسية التي تم تدريبها بنفس الحجم والحجم النصي للبيانات، يُظهر GenAu تحسينات كبيرة بنسبة 4.7% في مؤشر FAD، و11.1% في مؤشر IS، و13.5% في مؤشر CLAP. وتم إتاحة الكود، ونقط التحقق للنموذج، ومجموعة البيانات بشكل عام.

تَسْكِين البيانات والمحولات لِتَوليد الصوت | أحدث الأوراق البحثية | HyperAI