مُعمَّل مُرَتَّب فعّال يعتمد على نموذج التشفير-الإعادة مع انتباه من الأعلى إلى الأسفل لفصل الصوت

أظهرت الشبكات العصبية العميقة إمكانات متميزة في مهام فصل الكلام. ومع ذلك، يظل تحقيق نتائج جيدة مع الحفاظ على تعقيد نموذج منخفض تحديًا في التطبيقات الواقعية. في هذه الورقة، نقدّم معمارية كودر-ديكودر فعالة مُستوحاة من الطبيعة، تُسمى TDANet، تُقلّد انتباه الدماغ العلوي-السفلي، بحيث تقلّل من تعقيد النموذج دون التضحية بالأداء. يتم استخلاص انتباه الدماغ العلوي-السفلي في TDANet من خلال وحدة الانتباه العالمي (GA) وطبقات الانتباه المحلي المتسلسلة (LA). تأخذ وحدة GA ميزات صوتية متعددة المقاييس كمدخل لاستخراج إشارة انتباه عالمية، والتي تُستخدم بعدها لتعديل ميزات المقياس المختلفة عبر اتصالات علوية-سفلية مباشرة. أما طبقات LA، فتستخدم ميزات الطبقات المجاورة كمدخل لاستخراج إشارة انتباه محلية، والتي تُستخدم لتعديل المدخلات الجانبية بطريقة علوية-سفلية. على ثلاث مجموعات بيانات معيارية، حققت TDANet أداءً تنافسيًا مستمرًا مقارنةً بالأساليب السابقة المتفوقة (SOTA)، مع كفاءة أعلى. وبشكل خاص، بلغ عدد عمليات التوليف والجمع (MACs) في TDANet 5% فقط من Sepformer، أحد النماذج المتفوقة السابقة، بينما استغرق وقت الاستنتاج على وحدة المعالجة المركزية (CPU) فقط 10% من زمن Sepformer. بالإضافة إلى ذلك، حققت النسخة الكبيرة من TDANet نتائج متفوقة على ثلاث مجموعات بيانات، مع بقاء عدد عمليات MACs عند 10% فقط من Sepformer، ووقت الاستنتاج على CPU عند 24% فقط من زمن Sepformer.