HyperAIHyperAI
منذ 2 أشهر

استخراج الصوت المستهدف في الوقت الحقيقي

Veluri, Bandhav ; Chan, Justin ; Itani, Malek ; Chen, Tuochao ; Yoshioka, Takuya ; Gollakota, Shyamnath
استخراج الصوت المستهدف في الوقت الحقيقي
الملخص

نقدم أول نموذج لشبكة عصبية يحقق استخراج الصوت المستهدف في الوقت الفعلي والتدفقي. لتحقيق هذا الهدف، نقترح "وايففورمر" (Waveformer)، وهي هندسة مُشفر-مُفكك تستخدم طبقات التجميع الموسعة السببية كالمُشفر، وطبقة فك التشفير من نوع "ترانسفورمر" (transformer) كالمُفكك. تعتمد هذه الهندسة الهجينة على استخدام التجميعات الموسعة السببية لمعالجة حقول الاستقبال الكبيرة بطريقة حسابية فعالة، مع الاستفادة أيضًا من أداء التعميم للهياكل القائمة على "الترانسفورمر". تظهر تقييماتنا تحسينًا بنسبة 2.2-3.3 ديسيبل في مؤشر SNRi المحسن للمصدر الواحد مقارنة بالنموذج السابق لهذه المهمة، بينما يكون حجم النموذج أصغر بمقدار 1.2-4 مرات وأداء تشغيله أقل بنسبة 1.5-2 مرات. نوفر الرمز البرمجي، ومجموعة البيانات، وعينات الصوت: https://waveformer.cs.washington.edu/.

استخراج الصوت المستهدف في الوقت الحقيقي | أحدث الأوراق البحثية | HyperAI