HyperAIHyperAI
منذ 15 أيام

فصل الصوت مع عدد غير معروف من المتكلمين المتعددين

Eliya Nachmani, Yossi Adi, Lior Wolf
فصل الصوت مع عدد غير معروف من المتكلمين المتعددين
الملخص

نقدم طريقة جديدة لفصل تسلسل صوتي مختلط، حيث يتحدث أكثر من صوت بشكل متزامن. تعتمد الطريقة الجديدة على شبكات عصبية مُدارة (gated neural networks) التي تُدرّب على فصل الأصوات في عدة مراحل معالجة، مع الحفاظ على ثبات المتحدث في كل قناة من المخرجات. يتم تدريب نموذج مختلف لكل عدد محتمل من المتكلمين، ويُستخدم النموذج الذي يدعم أكبر عدد من المتكلمين لتحديد العدد الفعلي للمتكلمين في العينة المعطاة. تتفوق طريقة العمل هذه بشكل كبير على أحدث الطرق المتوفرة، كما نُظهر أن هذه الطرق السابقة لا تُعدّ منافسة فعّالة عندما يتجاوز عدد المتكلمين اثنين.

فصل الصوت مع عدد غير معروف من المتكلمين المتعددين | أحدث الأوراق البحثية | HyperAI