منذ 8 أشهر

الملخص

نقدم أول نموذج لشبكة عصبية يحقق استخراج الصوت المستهدف في الوقت الفعلي والتدفقي. لتحقيق هذا الهدف، نقترح "وايففورمر" (Waveformer)، وهي هندسة مُشفر-مُفكك تستخدم طبقات التجميع الموسعة السببية كالمُشفر، وطبقة فك التشفير من نوع "ترانسفورمر" (transformer) كالمُفكك. تعتمد هذه الهندسة الهجينة على استخدام التجميعات الموسعة السببية لمعالجة حقول الاستقبال الكبيرة بطريقة حسابية فعالة، مع الاستفادة أيضًا من أداء التعميم للهياكل القائمة على "الترانسفورمر". تظهر تقييماتنا تحسينًا بنسبة 2.2-3.3 ديسيبل في مؤشر SNRi المحسن للمصدر الواحد مقارنة بالنموذج السابق لهذه المهمة، بينما يكون حجم النموذج أصغر بمقدار 1.2-4 مرات وأداء تشغيله أقل بنسبة 1.5-2 مرات. نوفر الرمز البرمجي، ومجموعة البيانات، وعينات الصوت: https://waveformer.cs.washington.edu/.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار