ERANNs: شبكات عصبية صوتية متبقية فعالة للتعرف على أنماط الصوت

تمثّل اعتراف الأنماط الصوتية (APR) موضوعًا بحثيًا مهمًا ويمكن تطبيقها في عدة مجالات مرتبطة بحياتنا اليومية. ولهذا السبب، من الضروري تطوير أنظمة APR دقيقة وفعالة، نظرًا لفوائدها في التطبيقات الواقعية. في هذه الورقة، نقترح معمارية جديدة لشبكة عصبية متعددة الطبقات (CNN) وطريقة لتحسين سرعة الاستنتاج في الأنظمة القائمة على CNN لمهام اعتراف الأنماط الصوتية. علاوةً على ذلك، باستخدام الطريقة المقترحة، نتمكن من تحسين أداء أنظمتنا، كما تأكد ذلك من خلال التجارب التي أُجريت على أربع مجموعات بيانات صوتية. بالإضافة إلى ذلك، نستعرض تأثير تقنيات تكبير البيانات (data augmentation) والتعلم المنقول (transfer learning) على أداء أنظمتنا. وتحقيقًا لأفضل أداء، وصلت أنظمتنا إلى متوسط دقة متوسطة (mAP) قدره 0.450 على مجموعة بيانات AudioSet. وعلى الرغم من أن هذه القيمة أقل من تلك المحققة من قبل الأنظمة الأفضل في الحالة الراهنة (state-of-the-art)، إلا أن النظام المقترح أسرع بنسبة 7.1 مرة وأصغر حجمًا بنسبة 9.7 مرة. أما على مجموعات بيانات ESC-50 وUrbanSound8K وRAVDESS، فقد تحققت نتائج من المستوى الريادي (state-of-the-art) بتحقيق دقة قدرها 0.961 و0.908 و0.748 على التوالي. كما أن نظامنا الخاص بمجموعة بيانات ESC-50 أسرع بنسبة 1.7 مرة وأصغر حجمًا بنسبة 2.3 مرة مقارنة بالنظام السابق الأفضل. أما بالنسبة لمجموعة بيانات RAVDESS، فقد كان نظامنا أصغر حجمًا بنسبة 3.3 مرة من النظام السابق الأفضل. ونسمي أنظمتنا بـ "الشبكات العصبية الصوتية المُحسّنة ذات التغذية المرتدة" (Efficient Residual Audio Neural Networks).