HyperAIHyperAI
منذ 17 أيام

شبكة فصل الكلام بالتحسن التدريجي من خلال الترميز الدقيق في المجال الكامن من الدرجة العليا

Zengwei Yao, Wenjie Pei, Fanglin Chen, Guangming Lu, David Zhang
شبكة فصل الكلام بالتحسن التدريجي من خلال الترميز الدقيق في المجال الكامن من الدرجة العليا
الملخص

جوهر فصل الصوت من قناة واحدة يكمن في كيفية ترميز خليط الإشارات إلى فضاء ترميز خفي بحيث يمكن فصل إشارات المتكلمين المختلفين بدقة. تُطبّق الطرق الحالية لفصل الصوت إما تحويل الإشارات الصوتية إلى المجال الترددي لأداء الفصل، أو السعي إلى تعلّم فضاء ترميز قابِل للفصل من خلال بناء مجال خفي استنادًا إلى مرشحات تلافيفية (convolutional filters). وعلى الرغم من أن الطرق من النوع الثاني، التي تتعلم فضاء ترميز، حققت تحسينات كبيرة في فصل الصوت، فإننا نرى أن فضاء الترميز المُعرّف بواسطة مجال خفي واحد فقط لا يكفي لتوفير فضاء ترميز شامل وقابِل للفصل بشكل كامل لفصل الصوت. في هذا البحث، نقترح شبكة فصل صوت متعددة المراحل (SRSSN)، التي تتبع إطار عمل فصل من الخشن إلى الدقيق. في المرحلة الأولى، تتعلم SRSSN مجالًا خفيًا من الدرجة الأولى لتعريف فضاء ترميز، وبالتالي تُنفّذ فصلًا تقريبيًا في المرحلة الخشنة. ثم، في المرحلة المُعدّلة، تتعلم SRSSN مجالًا خفيًا جديدًا على طول كل دالة أساسية من الدوال الأساسية للمجال الخفي الحالي، بهدف الحصول على مجال خفي من درجة أعلى، ما يمكّن نموذجنا من إجراء فصل مُعدّل لتحقيق فصل صوتي أكثر دقة. ونُظهر فعالية SRSSN من خلال إجراء تجارب واسعة النطاق، تشمل فصل الصوت في بيئة نظيفة (خالية من الضوضاء) باستخدام مجموعات بيانات WSJ0-2/3mix، وكذلك في بيئات ملوثة أو متأخرة (مُتَرَدِّدة) باستخدام مجموعات بيانات WHAM!/WHAMR!، إلى جانب إجراء تجارب على التعرف على الكلام على الإشارات الصوتية المنفصلة بواسطة نموذجنا لتقييم أداء فصل الصوت بشكل غير مباشر.