الشبكات العصبية الهجينة للسماع الاتجاهي على الجهاز

الاستماع الاتجاهي على الجهاز يتطلب فصل مصدر الصوت من اتجاه معين بينما يحقق متطلبات تأخير غير ملحوظة للإنسان بشكل صارم. رغم أن الشبكات العصبية يمكن أن تحقق أداءً أفضل بكثير من المكثفات التقليدية، فإن جميع النماذج الموجودة تعجز عن دعم الاستدلال السببي بتأخير منخفض على الأجهزة القابلة للارتداء ذات القيود الحسابية. نقدم في هذا البحث نموذج DeepBeam (ديب بيام)، وهو نموذج هجين يجمع بين المكثفات التقليدية وشبكة عصبية خفيفة مخصصة. يعمل الأول على تقليل العبء الحاسوبي للثاني وتحسين قابليته للتعميم، بينما يتم تصميم الثاني لتقليل العبء الحاسوبي والذاكرة بشكل أكبر لتمكين العمليات الفورية ذات التأخير المنخفض. تظهر تقييماتنا أداءً مشابهًا لنماذج الاستدلال السببي الأكثر تقدمًا على البيانات المصنعة، مع تحقيق تخفيض بنسبة 5 مرات في حجم النموذج، وتخفيض بنسبة 4 مرات في عدد العمليات الحاسوبية لكل ثانية، وتخفيض بنسبة 5 مرات في وقت المعالجة وتعميم أفضل للبيانات الفعلية للأجهزة. بالإضافة إلى ذلك، يعمل نموذجنا الهجين الفوري في غضون 8 ملي ثانية على معالجات الهواتف المحمولة المصممة للأجهزة القابلة للارتداء ذات استهلاك الطاقة المنخفض ويحقق تأخيرًا كليًا من نقطة بداية إلى نقطة نهاية بمقدار 17.5 ملي ثانية.