منذ 15 أيام
فصل الصوت مع عدد غير معروف من المتكلمين المتعددين
Eliya Nachmani, Yossi Adi, Lior Wolf

الملخص
نقدم طريقة جديدة لفصل تسلسل صوتي مختلط، حيث يتحدث أكثر من صوت بشكل متزامن. تعتمد الطريقة الجديدة على شبكات عصبية مُدارة (gated neural networks) التي تُدرّب على فصل الأصوات في عدة مراحل معالجة، مع الحفاظ على ثبات المتحدث في كل قناة من المخرجات. يتم تدريب نموذج مختلف لكل عدد محتمل من المتكلمين، ويُستخدم النموذج الذي يدعم أكبر عدد من المتكلمين لتحديد العدد الفعلي للمتكلمين في العينة المعطاة. تتفوق طريقة العمل هذه بشكل كبير على أحدث الطرق المتوفرة، كما نُظهر أن هذه الطرق السابقة لا تُعدّ منافسة فعّالة عندما يتجاوز عدد المتكلمين اثنين.