استكشاف أهداف التدريب لتحسين الكلام التوليدي

أظهرت تحسينات الكلام التوليدية تقدماً واعداً مؤخراً في تحسين جودة الكلام في البيئات الصاخبة. توجد حالياً عدة هياكل قائمة على التشتت (diffusion-based frameworks)، كل منها يستخدم أهداف تدريب وتقنيات تعلم مختلفة. يهدف هذا البحث إلى توضيح الفروق بين هذه الهياكل من خلال التركيز في دراستنا على النماذج التوليدية القائمة على "النقطة" (score-based generative models) و"جسر شرودنغر" (Schrödinger bridge). قمنا بسلسلة من التجارب الشاملة لمقارنة أدائهم وتسليط الضوء على سلوك التدريب المختلف بينها. بالإضافة إلى ذلك، نقترح دالة خسارة جديدة تعتمد على الإدراك (perceptual loss function) مصممة خصيصاً لهيكل جسر شرودنغر، حيث أظهرت نتائجها تحسناً في الأداء وتحسيناً في الجودة الإدراكية للإشارات الصوتية المحسّنة. تم إتاحة جميع أكواد التجارب والنماذج المدربة مسبقاً بشكل عام لتسهيل الأبحاث والتطوير الإضافي في هذا المجال.