HyperAIHyperAI

Command Palette

Search for a command to run...

ERANNs: شبكات عصبية صوتية متبقية فعالة للتعرف على أنماط الصوت

Sergey Verbitskiy Vladimir Berikov Viacheslav Vyshegorodtsev

الملخص

تمثّل اعتراف الأنماط الصوتية (APR) موضوعًا بحثيًا مهمًا ويمكن تطبيقها في عدة مجالات مرتبطة بحياتنا اليومية. ولهذا السبب، من الضروري تطوير أنظمة APR دقيقة وفعالة، نظرًا لفوائدها في التطبيقات الواقعية. في هذه الورقة، نقترح معمارية جديدة لشبكة عصبية متعددة الطبقات (CNN) وطريقة لتحسين سرعة الاستنتاج في الأنظمة القائمة على CNN لمهام اعتراف الأنماط الصوتية. علاوةً على ذلك، باستخدام الطريقة المقترحة، نتمكن من تحسين أداء أنظمتنا، كما تأكد ذلك من خلال التجارب التي أُجريت على أربع مجموعات بيانات صوتية. بالإضافة إلى ذلك، نستعرض تأثير تقنيات تكبير البيانات (data augmentation) والتعلم المنقول (transfer learning) على أداء أنظمتنا. وتحقيقًا لأفضل أداء، وصلت أنظمتنا إلى متوسط دقة متوسطة (mAP) قدره 0.450 على مجموعة بيانات AudioSet. وعلى الرغم من أن هذه القيمة أقل من تلك المحققة من قبل الأنظمة الأفضل في الحالة الراهنة (state-of-the-art)، إلا أن النظام المقترح أسرع بنسبة 7.1 مرة وأصغر حجمًا بنسبة 9.7 مرة. أما على مجموعات بيانات ESC-50 وUrbanSound8K وRAVDESS، فقد تحققت نتائج من المستوى الريادي (state-of-the-art) بتحقيق دقة قدرها 0.961 و0.908 و0.748 على التوالي. كما أن نظامنا الخاص بمجموعة بيانات ESC-50 أسرع بنسبة 1.7 مرة وأصغر حجمًا بنسبة 2.3 مرة مقارنة بالنظام السابق الأفضل. أما بالنسبة لمجموعة بيانات RAVDESS، فقد كان نظامنا أصغر حجمًا بنسبة 3.3 مرة من النظام السابق الأفضل. ونسمي أنظمتنا بـ "الشبكات العصبية الصوتية المُحسّنة ذات التغذية المرتدة" (Efficient Residual Audio Neural Networks).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp