HyperAIHyperAI

Command Palette

Search for a command to run...

فصل و تفتيت: استخدام نموذج تفتيت مُدرب مسبقًا لتحسين فصل المصادر

Shahar Lutati; Eliya Nachmani; Lior Wolf

الملخص

مشكلة فصل الكلام، المعروفة أيضًا بمشكلة حفلة الكوكتيل، تشير إلى مهمة عزل إشارة كلام واحدة من مزيج من إشارات الكلام. في الأبحاث السابقة حول فصل المصادر، تم اشتقاق حد أقصى لمهام فصل المصادر في مجال الكلام البشري. هذا الحد يتم اشتقاقه لنموذجات حتمية (Deterministic Models). التطورات الحديثة في النماذج الجينيراتيف (Generative Models) تتحدى هذا الحد. نوضح كيف يمكن تعميم الحد الأعلى على حالة النماذج الجينيراتيف العشوائية (Random Generative Models). تطبيق نموذج الانتشار (Diffusion Model) Vocoder الذي تم تدريبه مسبقًا على نمذجة أصوات المتحدث الواحد على خرج نموذج الفصل الحتمي يؤدي إلى نتائج فصل رائدة على مستوى العالم. يُظهر أن هذا يتطلب دمج خرج نموذج الفصل مع خرج نموذج الانتشار. في طريقتنا، يتم تنفيذ الجمع الخطي في المجال الترددي باستخدام أوزان يتم استنتاجها بواسطة نموذج تم تعلمه. نقدم أفضل النتائج المعاصرة لأعداد مختلفة من المتحدثين (2، 3، 5، 10 و20 متحدثًا) على عدة مقاييس. بشكل خاص، بالنسبة لمتحدثين اثنين، تستطيع طريقتنا تجاوز ما كان يعتبر سابقًا الحد الأعلى للأداء.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp