استكشاف أفضل دالة خسارة لتحسين الصوت منخفض التأخير القائم على الشبكات العصبية العميقة باستخدام الشبكات الت(Convolutional Networks) الزمنية

في الآونة الأخيرة، تم استخدام الشبكات العصبية العميقة (DNNs) بنجاح في تحسين الصوت، وتشكل طرق تحسين الصوت القائمة على الشبكات العصبية العميقة مجالًا بحثيًا جذابًا. وعلى الرغم من أن أساليب التصفية الزمنية-الترددية المستندة إلى التحويل فورييه القصير الأجل (STFT) كانت مُستخدمة على نطاق واسع في تحسين الصوت القائم على DNN خلال السنوات الماضية، إلا أن الأساليب الزمنية مثل شبكة فصل الصوت الزمنية (TasNet) قد تم أيضًا اقتراحها. ويعتمد الاختيار الأمثل للطريقة على حجم مجموعة البيانات ونوع المهمة. في هذه الورقة، نستعرض أفضل خوارزمية لتحسين الصوت على مجموعتين بيانات مختلفتين. نقترح طريقة تعتمد على STFT ووظيفة خسارة تستخدم ميزات مشفرة للصوت المجردة من المشكلة (PASE) لتحسين الجودة الذاتية في حالة مجموعة البيانات الأصغر. وتبين النتائج فعالية الأساليب المقترحة على مجموعة بيانات Voice Bank + DEMAND، وتتفوق على طرق حديثة أخرى متميزة. كما قمنا بتنفيذ نسخة منخفضة التأخير من TasNet، والتي قدمناها في مسابقة DNS، وجعلناها متاحة للجمهور من خلال فتح المصدر. ويُظهر نموذجنا أداءً ممتازًا على مجموعة بيانات مسابقة DNS.