HyperAIHyperAI
منذ 15 أيام

تعزيز فصل المتكلم غير المُعدود باستخدام مُفكّك مُستند إلى محول الجاذبية

Younglo Lee, Shukjae Choi, Byeong-Yeol Kim, Zhong-Qiu Wang, Shinji Watanabe
تعزيز فصل المتكلم غير المُعدود باستخدام مُفكّك مُستند إلى محول الجاذبية
الملخص

نُقدّم نموذجًا جديدًا للانفصال الصوتي مُصمم لفصل المزيج الذي يحتوي على عدد غير معروف من المتكلمين. يعتمد النموذج المقترح على تجميع ثلاث مكونات رئيسية: 1) كتلة معالجة ثنائية المسار التي تُمكّن من نمذجة الأنماط الطيفية-الزمنية، 2) وحدة حسابية قائمة على مُفكّك الترانسفورمر (TDA) تعتمد على "جذب" المُستفسرات، والتي تُعالج عددًا غير معروف من المتكلمين، و3) كتل معالجة ثلاثية المسارات التي تُمكّن من نمذجة العلاقات بين المتكلمين. وباستخدام مجموعة ثابتة وصغيرة من استفسارات المتكلم المُدرّبة مسبقًا، بالإضافة إلى التضمين المختلط الناتج عن الكتل ثنائية المسار، تقوم وحدة TDA باستنتاج العلاقات بين هذه الاستفسارات وإنشاء متجه جذب لكل متكلم. ثم يتم دمج المتجهات الجاذبة المقدرة مع التضمين المختلط عبر عملية توليف خطية حسب الميزات (feature-wise linear modulation conditioning)، مما يُنشئ بعدًا للمتكلم. ويُوجَّه التضمين المختلط، المشروط بمعلومات المتكلم التي تولّدها وحدة TDA، إلى الكتل الثلاثية المسارات النهائية، والتي تُضاعف كتل المسارات الثنائية بمسار إضافي مخصص لمعالجة العلاقات بين المتكلمين. وقد أظهر النموذج المقترح أداءً أفضل من أفضل النماذج المُبلغ عنها سابقًا في الأدبيات، حيث حقق تحسنًا في مؤشر SI-SDR بلغ 24.0 و23.7 ديسيبل (SI-SDRi) على بيانات WSJ0-2 و3mix على التوالي، باستخدام نموذج واحد تم تدريبه لفصل المزيج المكوّن من متكلمين اثنين أو ثلاثة. كما يُظهر النموذج أيضًا أداءً قويًا وقابلية تعميم عالية في تحديد عدد المصادر وفصل المزيج المحتوي على ما يصل إلى خمسة متكلمين.

تعزيز فصل المتكلم غير المُعدود باستخدام مُفكّك مُستند إلى محول الجاذبية | أحدث الأوراق البحثية | HyperAI