HyperAIHyperAI
منذ 11 أيام

الانفصال عن المصدر المختلط بين الطيفي والشكل الموجي

Alexandre Défossez
الانفصال عن المصدر المختلط بين الطيفي والشكل الموجي
الملخص

تُنفَّذ نماذج فصل المصادر إما في مجال الطيف (spectrogram) أو في مجال الموجة الصوتية (waveform). في هذا العمل، نُظهِر كيفية إجراء فصل مصادر هجين من الطرف إلى الطرف، بحيث تُتَّخذ قرارات من قبل النموذج بشأن تحديد المجال الأنسب لكل مصدر، بل وحتى الجمع بين كلا المجالين. وقد فازت النسخة الهجينة المقترحة من بنية Demucs بمسابقة خلع الصوت الموسيقي 2021 التي نظمتها شركة سوني. كما تأتي هذه البنية مع تحسينات إضافية، مثل الفروع المتبقية المُضغَطة (compressed residual branches)، والانتباه المحلي (local attention)، أو الت régularisation القيمة المفردة (singular value regularization). في المجمل، تم ملاحظة تحسن بنسبة 1.4 ديسيبل في معامل العلاقة بين الإشارة والتشويش (SDR) على جميع المصادر، وفقًا لبيانات مجموعة MusDB HQ، وهو تحسن مُؤكَّد من خلال التقييم الذاتي البشري، حيث تم تقييم الجودة العامة بـ 2.83 من أصل 5 (مقابل 2.36 للنموذج غير الهجين من Demucs)، كما سُجِّل غياب التلوث (contamination) بدرجة 3.04 (مقابل 2.37 للنموذج غير الهجين من Demucs، و2.44 للنموذج الثاني الذي تقدَّم به في المسابقة).

الانفصال عن المصدر المختلط بين الطيفي والشكل الموجي | أحدث الأوراق البحثية | HyperAI