HyperAIHyperAI

Command Palette

Search for a command to run...

استخراج الصوت المستهدف في الوقت الحقيقي

Bandhav Veluri Justin Chan Malek Itani Tuochao Chen Takuya Yoshioka Shyamnath Gollakota

الملخص

نقدم أول نموذج لشبكة عصبية يحقق استخراج الصوت المستهدف في الوقت الفعلي والتدفقي. لتحقيق هذا الهدف، نقترح "وايففورمر" (Waveformer)، وهي هندسة مُشفر-مُفكك تستخدم طبقات التجميع الموسعة السببية كالمُشفر، وطبقة فك التشفير من نوع "ترانسفورمر" (transformer) كالمُفكك. تعتمد هذه الهندسة الهجينة على استخدام التجميعات الموسعة السببية لمعالجة حقول الاستقبال الكبيرة بطريقة حسابية فعالة، مع الاستفادة أيضًا من أداء التعميم للهياكل القائمة على "الترانسفورمر". تظهر تقييماتنا تحسينًا بنسبة 2.2-3.3 ديسيبل في مؤشر SNRi المحسن للمصدر الواحد مقارنة بالنموذج السابق لهذه المهمة، بينما يكون حجم النموذج أصغر بمقدار 1.2-4 مرات وأداء تشغيله أقل بنسبة 1.5-2 مرات. نوفر الرمز البرمجي، ومجموعة البيانات، وعينات الصوت: https://waveformer.cs.washington.edu/.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp