HyperAIHyperAI
منذ 2 أشهر

فصل و تفتيت: استخدام نموذج تفتيت مُدرب مسبقًا لتحسين فصل المصادر

Shahar Lutati; Eliya Nachmani; Lior Wolf
فصل و تفتيت: استخدام نموذج تفتيت مُدرب مسبقًا لتحسين فصل المصادر
الملخص

مشكلة فصل الكلام، المعروفة أيضًا بمشكلة حفلة الكوكتيل، تشير إلى مهمة عزل إشارة كلام واحدة من مزيج من إشارات الكلام. في الأبحاث السابقة حول فصل المصادر، تم اشتقاق حد أقصى لمهام فصل المصادر في مجال الكلام البشري. هذا الحد يتم اشتقاقه لنموذجات حتمية (Deterministic Models). التطورات الحديثة في النماذج الجينيراتيف (Generative Models) تتحدى هذا الحد. نوضح كيف يمكن تعميم الحد الأعلى على حالة النماذج الجينيراتيف العشوائية (Random Generative Models). تطبيق نموذج الانتشار (Diffusion Model) Vocoder الذي تم تدريبه مسبقًا على نمذجة أصوات المتحدث الواحد على خرج نموذج الفصل الحتمي يؤدي إلى نتائج فصل رائدة على مستوى العالم. يُظهر أن هذا يتطلب دمج خرج نموذج الفصل مع خرج نموذج الانتشار. في طريقتنا، يتم تنفيذ الجمع الخطي في المجال الترددي باستخدام أوزان يتم استنتاجها بواسطة نموذج تم تعلمه. نقدم أفضل النتائج المعاصرة لأعداد مختلفة من المتحدثين (2، 3، 5، 10 و20 متحدثًا) على عدة مقاييس. بشكل خاص، بالنسبة لمتحدثين اثنين، تستطيع طريقتنا تجاوز ما كان يعتبر سابقًا الحد الأعلى للأداء.

فصل و تفتيت: استخدام نموذج تفتيت مُدرب مسبقًا لتحسين فصل المصادر | أحدث الأوراق البحثية | HyperAI