منذ 2 أشهر
استخراج الصوت المستهدف في الوقت الحقيقي
Veluri, Bandhav ; Chan, Justin ; Itani, Malek ; Chen, Tuochao ; Yoshioka, Takuya ; Gollakota, Shyamnath

الملخص
نقدم أول نموذج لشبكة عصبية يحقق استخراج الصوت المستهدف في الوقت الفعلي والتدفقي. لتحقيق هذا الهدف، نقترح "وايففورمر" (Waveformer)، وهي هندسة مُشفر-مُفكك تستخدم طبقات التجميع الموسعة السببية كالمُشفر، وطبقة فك التشفير من نوع "ترانسفورمر" (transformer) كالمُفكك. تعتمد هذه الهندسة الهجينة على استخدام التجميعات الموسعة السببية لمعالجة حقول الاستقبال الكبيرة بطريقة حسابية فعالة، مع الاستفادة أيضًا من أداء التعميم للهياكل القائمة على "الترانسفورمر". تظهر تقييماتنا تحسينًا بنسبة 2.2-3.3 ديسيبل في مؤشر SNRi المحسن للمصدر الواحد مقارنة بالنموذج السابق لهذه المهمة، بينما يكون حجم النموذج أصغر بمقدار 1.2-4 مرات وأداء تشغيله أقل بنسبة 1.5-2 مرات. نوفر الرمز البرمجي، ومجموعة البيانات، وعينات الصوت: https://waveformer.cs.washington.edu/.