HyperAIHyperAI

Command Palette

Search for a command to run...

Wave-U-Net: شبكة عصبية متعددة المقياس للفصل التلقائي للمصدر الصوتي من البداية إلى النهاية

Daniel Stoller; Sebastian Ewert; Simon Dixon

الملخص

تقوم نماذج فصل مصادر الصوت عادةً بالعمل على الطيف المغناطيسي، مما يجعلها تتجاهل معلومات الطور وتعتمد أداء الفصل على المعلمات الأولية للواجهة الطيفية. لذلك، نقوم بدراسة فصل المصدر من النهاية إلى النهاية في المجال الزمني، والذي يسمح بنمذجة معلومات الطور ويتجنب التحويلات الطيفية الثابتة. بسبب معدلات العينة المرتفعة للصوت، فإن استخدام سياق زمني طويل على مستوى العينات يكون صعبًا، ولكنه ضروري لتحقيق نتائج فصل عالية الجودة بسبب الارتباطات الزمنية طويلة المدى. في هذا السياق، نقترح الشبكة Wave-U-Net، وهي تعديل لشبكة U-Net للمجال الزمني الأحادي البعد، والتي تقوم بإعادة عينة الخرائط الخاصة بالخصائص بشكل متكرر لحساب ودمج الخصائص في مقاييس زمنية مختلفة. نقدم أيضًا تحسينات هندسية إضافية، بما في ذلك طبقة الإخراج التي تفرض إضافة المصادر، تقنية إعادة التوسيع (upsampling) وإطار عمل التنبؤ الواعي بالسياق لتقليل تشوهات الإخراج. تشير التجارب المتعلقة بفصل صوت الغناء إلى أن هندستنا تحقق أداءً مماثلًا لأحدث هندسة U-Net المستندة إلى الطيف المغناطيسي عند استخدام نفس البيانات. أخيرًا، نكشف عن مشكلة مرتبطة بالملاحظات الشاذة (outliers) في مقاييس تقييم SDR المستخدمة حاليًا ونقترح الإبلاغ عن إحصائيات مرتبطة بالترتيب لتخفيف هذه المشكلة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp