Command Palette
Search for a command to run...
استخراج الصوت المستهدف في الوقت الحقيقي
استخراج الصوت المستهدف في الوقت الحقيقي
Bandhav Veluri Justin Chan Malek Itani Tuochao Chen Takuya Yoshioka Shyamnath Gollakota
الملخص
نقدم أول نموذج لشبكة عصبية يحقق استخراج الصوت المستهدف في الوقت الفعلي والتدفقي. لتحقيق هذا الهدف، نقترح "وايففورمر" (Waveformer)، وهي هندسة مُشفر-مُفكك تستخدم طبقات التجميع الموسعة السببية كالمُشفر، وطبقة فك التشفير من نوع "ترانسفورمر" (transformer) كالمُفكك. تعتمد هذه الهندسة الهجينة على استخدام التجميعات الموسعة السببية لمعالجة حقول الاستقبال الكبيرة بطريقة حسابية فعالة، مع الاستفادة أيضًا من أداء التعميم للهياكل القائمة على "الترانسفورمر". تظهر تقييماتنا تحسينًا بنسبة 2.2-3.3 ديسيبل في مؤشر SNRi المحسن للمصدر الواحد مقارنة بالنموذج السابق لهذه المهمة، بينما يكون حجم النموذج أصغر بمقدار 1.2-4 مرات وأداء تشغيله أقل بنسبة 1.5-2 مرات. نوفر الرمز البرمجي، ومجموعة البيانات، وعينات الصوت: https://waveformer.cs.washington.edu/.