HyperAIHyperAI
منذ 15 أيام

الانفصال الصوتي الفردي القناة لعدة متحدثين باستخدام التدريب المثالي للترتيب المثالي

Shaked Dovrat, Eliya Nachmani, Lior Wolf
الانفصال الصوتي الفردي القناة لعدة متحدثين باستخدام التدريب المثالي للترتيب المثالي
الملخص

شهدت عملية فصل الكلام من قناة واحدة تقدماً كبيراً في السنوات القليلة الماضية. ومع ذلك، فإن تدريب الشبكات العصبية لفصل الكلام على عدد كبير من المتكلمين (مثلاً أكثر من 10 متكلمين) يظل خارج متناول الطرق الحالية، التي تعتمد على دالة فقدان التبديل (Permutation Invariant Loss - PIT). في هذا العمل، نقدّم طريقة تدريب مبنية على التبديل تستخدم خوارزمية هنغارية، مما يسمح بالتدريب بتعقيد زمني يبلغ $O(C^3)$، حيث يمثل $C$ عدد المتكلمين، مقارنة بتعقيد $O(C!)$ الخاص بالطرق القائمة على PIT. بالإضافة إلى ذلك، نُقدّم معمارية معدلة قادرة على التعامل مع الزيادة في عدد المتكلمين. تتيح طريقتنا فصل ما يصل إلى 20 متكلماً، وتحسّن النتائج السابقة في حالات $C$ الكبيرة بشكل ملحوظ.

الانفصال الصوتي الفردي القناة لعدة متحدثين باستخدام التدريب المثالي للترتيب المثالي | أحدث الأوراق البحثية | HyperAI