HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة فصل الكلام بالتحسن التدريجي من خلال الترميز الدقيق في المجال الكامن من الدرجة العليا

Zengwei Yao Wenjie Pei Fanglin Chen Guangming Lu David Zhang

الملخص

جوهر فصل الصوت من قناة واحدة يكمن في كيفية ترميز خليط الإشارات إلى فضاء ترميز خفي بحيث يمكن فصل إشارات المتكلمين المختلفين بدقة. تُطبّق الطرق الحالية لفصل الصوت إما تحويل الإشارات الصوتية إلى المجال الترددي لأداء الفصل، أو السعي إلى تعلّم فضاء ترميز قابِل للفصل من خلال بناء مجال خفي استنادًا إلى مرشحات تلافيفية (convolutional filters). وعلى الرغم من أن الطرق من النوع الثاني، التي تتعلم فضاء ترميز، حققت تحسينات كبيرة في فصل الصوت، فإننا نرى أن فضاء الترميز المُعرّف بواسطة مجال خفي واحد فقط لا يكفي لتوفير فضاء ترميز شامل وقابِل للفصل بشكل كامل لفصل الصوت. في هذا البحث، نقترح شبكة فصل صوت متعددة المراحل (SRSSN)، التي تتبع إطار عمل فصل من الخشن إلى الدقيق. في المرحلة الأولى، تتعلم SRSSN مجالًا خفيًا من الدرجة الأولى لتعريف فضاء ترميز، وبالتالي تُنفّذ فصلًا تقريبيًا في المرحلة الخشنة. ثم، في المرحلة المُعدّلة، تتعلم SRSSN مجالًا خفيًا جديدًا على طول كل دالة أساسية من الدوال الأساسية للمجال الخفي الحالي، بهدف الحصول على مجال خفي من درجة أعلى، ما يمكّن نموذجنا من إجراء فصل مُعدّل لتحقيق فصل صوتي أكثر دقة. ونُظهر فعالية SRSSN من خلال إجراء تجارب واسعة النطاق، تشمل فصل الصوت في بيئة نظيفة (خالية من الضوضاء) باستخدام مجموعات بيانات WSJ0-2/3mix، وكذلك في بيئات ملوثة أو متأخرة (مُتَرَدِّدة) باستخدام مجموعات بيانات WHAM!/WHAMR!، إلى جانب إجراء تجارب على التعرف على الكلام على الإشارات الصوتية المنفصلة بواسطة نموذجنا لتقييم أداء فصل الصوت بشكل غير مباشر.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
شبكة فصل الكلام بالتحسن التدريجي من خلال الترميز الدقيق في المجال الكامن من الدرجة العليا | مستندات | HyperAI