HyperAIHyperAI

Command Palette

Search for a command to run...

شبكات التحويل الزمني القابلة للتشويه لفصل الكلام الأحادي الصوتي المتداخل والمتأثر بالصدى

William Ravenscroft Stefan Goetze Thomas Hain

الملخص

تُستخدم نماذج فصل الكلام لعزل المتحدثين الفرديين في العديد من تطبيقات معالجة الكلام. أثبتت نماذج التعلم العميق أنها تؤدي إلى نتائج رائدة (SOTA) في عدد من معايير فصل الكلام. أحد هذه الفئات من النماذج المعروفة باسم شبكات الالتفاف الزمنية (TCNs) قد أظهرت نتائج واعدة في مهام فصل الكلام. إحدى قيود هذه النماذج هي أن لديها مجال استقبال ثابت (RF). أظهر البحث الحديث في إزالة الرنين الصوتي أن المجال الاستقبالي الأمثل لشبكة الالتفاف الزمنية يختلف حسب خصائص الرنين للإشارة الصوتية. في هذا العمل، تم اقتراح الالتفاف القابل للتغيير كحل يسمح لنماذج TCN بأن يكون لديها مجالات استقبال ديناميكية يمكنها التكيف مع أوقات الرنين المختلفة لفصل الكلام المرن. حققت النماذج المقترحة تحسينًا بمتوسط نسبة الإشارة إلى التشويه الثابتة بالقياس (SISDR) قدره 11.1 ديسيبل على الإشارة الدخولية في معيار WHAMR. تم اقتراح نموذج TCN قابل للتغيير نسبيًا بحجم 1.3 مليون معلمة والذي يحقق أداءً فاصلًا مشابهًا للنماذج الأكبر والأكثر تعقيدًا من الناحية الحسابية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
شبكات التحويل الزمني القابلة للتشويه لفصل الكلام الأحادي الصوتي المتداخل والمتأثر بالصدى | مستندات | HyperAI