HyperAIHyperAI
منذ 15 أيام

الانفصال الصوتي ثنائي الخطوة: التدريب على الأهداف الكامنة المُدرَّبة

Efthymios Tzinis, Shrikant Venkataramani, Zhepei Wang, Cem Subakan, Paris Smaragdis
الانفصال الصوتي ثنائي الخطوة: التدريب على الأهداف الكامنة المُدرَّبة
الملخص

في هذه الورقة، نقترح إجراء تدريب مكوّن من خطوتين لفصل المصادر باستخدام شبكة عصبية عميقة. في الخطوة الأولى، نتعلم تحويلًا (وتحويله العكسي) إلى فضاء خفي حيث تكون أداء فصل التوقيت القائم على التصفية باستخدام مُدرِّسات مثالية هو الأفضل. أما في الخطوة الثانية، فإننا ندرّب وحدة فصل تعمل على الفضاء المُتعلّم سابقًا. ولتحقيق ذلك، نستخدم أيضًا دالة خسارة تعتمد على نسبة الإشارة إلى التشويش المستقلة عن المقياس (SI-SDR) التي تعمل في الفضاء الخفي، ونُثبت أن هذه الدالة تُحدّد حدًا سفليًا لنسبة SI-SDR في المجال الزمني. أجرينا تجارب متعددة لفصل الصوت تُظهر كيف يمكن لهذا النهج تحقيق أداءً أفضل مقارنةً بأنظمة تتعلم التحويل ووحدة الفصل معًا بشكل موحد. ويُعدّ النهج المقترح عامًا بما يكفي ليُطبّق على فئة واسعة من أنظمة الفصل النهائية القائمة على الشبكات العصبية.

الانفصال الصوتي ثنائي الخطوة: التدريب على الأهداف الكامنة المُدرَّبة | أحدث الأوراق البحثية | HyperAI