HyperAIHyperAI

Command Palette

Search for a command to run...

EVA-GAN: توليد صوتيات متنوعة محسّنة من خلال شبكات توليدية تنافسية قابلة للتوسع

Shijia Liao Shiyi Lan Arun George Zachariah

الملخص

يُمثل ظهور النماذج الكبيرة عصرًا جديدًا في التعلم الآلي، حيث تتفوق بشكل كبير على النماذج الأصغر من خلال الاستفادة من مجموعات بيانات ضخمة لالتقاط الأنماط المعقدة وتركيبها. وعلى الرغم من هذه التطورات، ما زال الاستكشاف في مجال التوسع، خاصة في مجال توليد الصوت، محدودًا، حيث لم تتجاوز الجهود السابقة نطاق الترددات عالية الدقة (HiFi) بتردد 44.1 كيلوهرتز، وتُعاني من انقطاعات طيفية وضبابية في النطاق الترددي العالي، بالإضافة إلى ضعف المقاومة تجاه البيانات الخارجة عن النطاق المستهدف. وتُحد هذه القيود من قابلية تطبيق النماذج على حالات استخدام متنوعة، بما في ذلك توليد الموسيقى والغناء. ويقدم عملنا نموذج EVA-GAN (EVA-GAN: توليد صوتيات متنوعة محسّنة من خلال شبكات توليدية مُضاعفة) الذي يحقق تحسينات كبيرة مقارنة بأفضل النماذج السابقة من حيث إعادة بناء الطيف وتحسين الأداء في النطاق الترددي العالي، وكذلك المقاومة أمام البيانات الخارجة عن النطاق المستهدف. ويتيح هذا النموذج توليد صوتيات عالية الجودة (HiFi) من خلال استخدام مجموعة بيانات ضخمة تبلغ 36,000 ساعة من الصوت بتردد 44.1 كيلوهرتز، ووحدة واعية بالسياق، وأداة قياس فنية تُستخدم بمشاركة الإنسان (Human-In-The-Loop)، كما تم توسيع النموذج ليصل إلى حوالي 200 مليون معلمة. يمكن مشاهدة عروض توضيحية لعملنا عبر الرابط التالي: https://double-blind-eva-gan.cc.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp