منذ 6 أشهر

الملخص

أظهرت تحسينات الكلام التوليدية تقدماً واعداً مؤخراً في تحسين جودة الكلام في البيئات الصاخبة. توجد حالياً عدة هياكل قائمة على التشتت (diffusion-based frameworks)، كل منها يستخدم أهداف تدريب وتقنيات تعلم مختلفة. يهدف هذا البحث إلى توضيح الفروق بين هذه الهياكل من خلال التركيز في دراستنا على النماذج التوليدية القائمة على "النقطة" (score-based generative models) و"جسر شرودنغر" (Schrödinger bridge). قمنا بسلسلة من التجارب الشاملة لمقارنة أدائهم وتسليط الضوء على سلوك التدريب المختلف بينها. بالإضافة إلى ذلك، نقترح دالة خسارة جديدة تعتمد على الإدراك (perceptual loss function) مصممة خصيصاً لهيكل جسر شرودنغر، حيث أظهرت نتائجها تحسناً في الأداء وتحسيناً في الجودة الإدراكية للإشارات الصوتية المحسّنة. تم إتاحة جميع أكواد التجارب والنماذج المدربة مسبقاً بشكل عام لتسهيل الأبحاث والتطوير الإضافي في هذا المجال.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار