HyperAIHyperAI
منذ 2 أشهر

Wave-U-Net: شبكة عصبية متعددة المقياس للفصل التلقائي للمصدر الصوتي من البداية إلى النهاية

Daniel Stoller; Sebastian Ewert; Simon Dixon
Wave-U-Net: شبكة عصبية متعددة المقياس للفصل التلقائي للمصدر الصوتي من البداية إلى النهاية
الملخص

تقوم نماذج فصل مصادر الصوت عادةً بالعمل على الطيف المغناطيسي، مما يجعلها تتجاهل معلومات الطور وتعتمد أداء الفصل على المعلمات الأولية للواجهة الطيفية. لذلك، نقوم بدراسة فصل المصدر من النهاية إلى النهاية في المجال الزمني، والذي يسمح بنمذجة معلومات الطور ويتجنب التحويلات الطيفية الثابتة. بسبب معدلات العينة المرتفعة للصوت، فإن استخدام سياق زمني طويل على مستوى العينات يكون صعبًا، ولكنه ضروري لتحقيق نتائج فصل عالية الجودة بسبب الارتباطات الزمنية طويلة المدى. في هذا السياق، نقترح الشبكة Wave-U-Net، وهي تعديل لشبكة U-Net للمجال الزمني الأحادي البعد، والتي تقوم بإعادة عينة الخرائط الخاصة بالخصائص بشكل متكرر لحساب ودمج الخصائص في مقاييس زمنية مختلفة. نقدم أيضًا تحسينات هندسية إضافية، بما في ذلك طبقة الإخراج التي تفرض إضافة المصادر، تقنية إعادة التوسيع (upsampling) وإطار عمل التنبؤ الواعي بالسياق لتقليل تشوهات الإخراج. تشير التجارب المتعلقة بفصل صوت الغناء إلى أن هندستنا تحقق أداءً مماثلًا لأحدث هندسة U-Net المستندة إلى الطيف المغناطيسي عند استخدام نفس البيانات. أخيرًا، نكشف عن مشكلة مرتبطة بالملاحظات الشاذة (outliers) في مقاييس تقييم SDR المستخدمة حاليًا ونقترح الإبلاغ عن إحصائيات مرتبطة بالترتيب لتخفيف هذه المشكلة.

Wave-U-Net: شبكة عصبية متعددة المقياس للفصل التلقائي للمصدر الصوتي من البداية إلى النهاية | أحدث الأوراق البحثية | HyperAI