تحسين تحسين الكلام باستخدام Wave-U-Net

ندرس استخدام بنية Wave-U-Net للتحسين الصوتي، وهي نموذج تم تقديمه من قبل ستولر وآخرون لفصل الأصوات الغنائية والمرافقة في الموسيقى. هذا الأسلوب التعلم من النهاية إلى النهاية لفصل مصادر الصوت يعمل مباشرة في المجال الزمني، مما يسمح بنمذجة متكاملة للمعلومات الطورية ويكون قادرًا على أخذ سياقات زمنية كبيرة بعين الاعتبار. تظهر تجاربنا أن الطريقة المقترحة تحسن عدة مقاييس، وهي PESQ، CSIG، CBAK، COVL وSSNR، مقارنة بأحدث التقنيات فيما يتعلق بمهمة التحسين الصوتي على مجموعة بيانات Corpus (VCTK) الخاصة ببنك الصوت. نجد أن عددًا أقل من الطبقات الخفية كافٍ للتحسين الصوتي مقارنة بالنظام الأصلي المصمم لفصل صوت الغناء في الموسيقى. نرى هذه النتائج الأولية كإشارة مشجعة لمزيد استكشاف التحسين الصوتي في المجال الزمني، سواءً كهدف بحد ذاته أو كخطوة ما قبل المعالجة لأنظمة التعرف على الكلام.