HyperAIHyperAI

Command Palette

Search for a command to run...

SE-MelGAN — تحسين سريع للصوت مستقل عن المتكلم

Luka Chkhetiani Levan Bejanidze

الملخص

أظهرت التطورات الحديثة في الشبكات التوليدية التنافسية (Generative Adversarial Networks) ضمن مجال توليد الصوت [3],[2] إمكانية تدريب الشبكات التوليدية التنافسية [8] بطريقة موثوقة لتصنيع موجات صوتية عالية الجودة ومتماسكة من خلال مخططات ميل-سبكتروغرام (mel-spectrograms). نقترح أن من الممكن نقل متانة نموذج MelGAN [3] في تعلّم خصائص الصوت إلى مجال تحسين الصوت وتقليل الضوضاء دون الحاجة إلى أي تعديلات على النموذج. يُظهر النهج المقترح قدرة على التعميم على مجموعات بيانات صوتية متعددة المتكلمين، وقادر على التعامل بثبات مع أنواع غير مسبوقة من الضوضاء الخلفية أثناء عملية الاستنتاج. كما نُظهر أن زيادة حجم الدفعة (batch size) في هذا النهج المحدد لا يؤدي فقط إلى تحسين جودة الصوت، بل يُسهل التعميم على مجموعات بيانات متعددة المتكلمين ويُسهم في تسريع التقارب. علاوةً على ذلك، يتفوق النهج المقترح على أفضل النماذج السابقة من نوع الشبكات التوليدية التنافسية في مجال تحسين الصوت (SEGAN [5]) في مجالين: 1. الجودة؛ 2. السرعة. إذ يعمل النهج المقترح بسرعة تزيد عن 100 مرة من السرعة الحقيقية (real-time) على وحدة معالجة الرسوميات (GPU)، وأكثر من مرتين من السرعة الحقيقية على وحدة المعالجة المركزية (CPU)، دون الحاجة إلى أي تحسينات هاردويرية، وبسرعة مماثلة لنموذج MelGAN [3].


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
SE-MelGAN — تحسين سريع للصوت مستقل عن المتكلم | مستندات | HyperAI