منذ 15 أيام
الانفصال الصوتي الفردي القناة لعدة متحدثين باستخدام التدريب المثالي للترتيب المثالي
Shaked Dovrat, Eliya Nachmani, Lior Wolf

الملخص
شهدت عملية فصل الكلام من قناة واحدة تقدماً كبيراً في السنوات القليلة الماضية. ومع ذلك، فإن تدريب الشبكات العصبية لفصل الكلام على عدد كبير من المتكلمين (مثلاً أكثر من 10 متكلمين) يظل خارج متناول الطرق الحالية، التي تعتمد على دالة فقدان التبديل (Permutation Invariant Loss - PIT). في هذا العمل، نقدّم طريقة تدريب مبنية على التبديل تستخدم خوارزمية هنغارية، مما يسمح بالتدريب بتعقيد زمني يبلغ $O(C^3)$، حيث يمثل $C$ عدد المتكلمين، مقارنة بتعقيد $O(C!)$ الخاص بالطرق القائمة على PIT. بالإضافة إلى ذلك، نُقدّم معمارية معدلة قادرة على التعامل مع الزيادة في عدد المتكلمين. تتيح طريقتنا فصل ما يصل إلى 20 متكلماً، وتحسّن النتائج السابقة في حالات $C$ الكبيرة بشكل ملحوظ.