منذ 17 أيام
نحو فصل الصوت في مشكلة ما قبل حفلة الكوكتيل باستخدام TasTas
Ziqiang Shi, Jiqing Han

الملخص
في هذه الملاحظة، نقترح استخدام TasTas \cite{shi2020speech} في النهج القائم على التحويل الكامل (end-to-end) لفصل الصوت الأحادي في مشكلة ما قبل حفلة الكوكتيل (pre-cocktail party). أظهرت تجاربنا على مجموعة بيانات WSJ0-5mix العامة تحسناً في معامل SDR بمقدار 10.41 ديسيبل. وإذا تم استخدام تقنية توليد ترميز جديد للبيانات الصوتية في الوقت الفعلي \cite{zeghidour2020wavesplit} أثناء التدريب، يمكن تحقيق تحسن في SDR يصل إلى 11.14 ديسيبل. وقد قمنا بالإفصاح المفتوح عن إعادة تنفيذنا لنموذج DPRNN-TasNet عبر الرابط التالي: https://github.com/ShiZiqiang/dual-path-RNNs-DPRNNs-based-speech-separation، كما تم تنفيذ TasTas بناءً على هذه النسخة المُعاد تنفيذها من DPRNN-TasNet، ويُعتقد أن النتائج المذكورة في هذه الورقة يمكن إعادة إنتاجها بسهولة.