HyperAIHyperAI

Command Palette

Search for a command to run...

استكشاف أهداف التدريب لتحسين الكلام التوليدي

Julius Richter Danilo de Oliveira Timo Gerkmann

الملخص

أظهرت تحسينات الكلام التوليدية تقدماً واعداً مؤخراً في تحسين جودة الكلام في البيئات الصاخبة. توجد حالياً عدة هياكل قائمة على التشتت (diffusion-based frameworks)، كل منها يستخدم أهداف تدريب وتقنيات تعلم مختلفة. يهدف هذا البحث إلى توضيح الفروق بين هذه الهياكل من خلال التركيز في دراستنا على النماذج التوليدية القائمة على "النقطة" (score-based generative models) و"جسر شرودنغر" (Schrödinger bridge). قمنا بسلسلة من التجارب الشاملة لمقارنة أدائهم وتسليط الضوء على سلوك التدريب المختلف بينها. بالإضافة إلى ذلك، نقترح دالة خسارة جديدة تعتمد على الإدراك (perceptual loss function) مصممة خصيصاً لهيكل جسر شرودنغر، حيث أظهرت نتائجها تحسناً في الأداء وتحسيناً في الجودة الإدراكية للإشارات الصوتية المحسّنة. تم إتاحة جميع أكواد التجارب والنماذج المدربة مسبقاً بشكل عام لتسهيل الأبحاث والتطوير الإضافي في هذا المجال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp