HyperAIHyperAI
منذ 17 أيام

نمذجة التحدث التفاعلي والضوضاء لتحسين الصوت

Chengyu Zheng, Xiulian Peng, Yuan Zhang, Sriram Srinivasan, Yan Lu
نمذجة التحدث التفاعلي والضوضاء لتحسين الصوت
الملخص

تحسين الكلام يُعد تحديًا بسبب تنوع أنواع الضوضاء الخلفية. وتركز معظم الطرق الحالية على نمذجة الكلام بدلًا من نمذجة الضوضاء. في هذا البحث، نقترح فكرة جديدة تتمثل في نمذجة الكلام والضوضاء معًا ضمن شبكة عصبية متعددة التفرعات باستخدام التحويلات التلافيفية، وتُعرف باسم SN-Net. في SN-Net، يعمل الفرعان على التنبؤ بالكلام والضوضاء على التوالي. بدلًا من دمج المعلومات فقط في الطبقة النهائية، نُدخل وحدات تفاعلية في عدة مجالات مميزة وسطية بين الفرعين، بهدف تعزيز التفاعل المتبادل بينهما. يمكن لهذا التفاعل الاستفادة من السمات المُكتسبة من فرع واحد لمواجهة الجزء غير المرغوب فيه في الفرع الآخر واستعادة المكونات المفقودة، وبالتالي تحسين قدرة التمييز بينهما. كما صممنا وحدة استخلاص السمات، تُعرف بـ RA (التحويل التلافيفي المتبقي والانتباه)، لالتقاط الارتباطات على طول المحور الزمني والمحور الترددي لكل من الكلام والضوضاء. أظهرت النتائج على مجموعات بيانات عامة أن وحدة التفاعل تلعب دورًا محوريًا في النمذجة المتزامنة، وأن SN-Net تتفوق على أحدث الطرق المُعلنة بمقدار كبير من حيث مؤشرات التقييم المختلفة. كما أظهرت SN-Net أداءً متميزًا في مهام فصل المتكلمين.

نمذجة التحدث التفاعلي والضوضاء لتحسين الصوت | أحدث الأوراق البحثية | HyperAI