HyperAIHyperAI

Command Palette

Search for a command to run...

PANNs: شبكات عصبية صوتية مُدرّبة مسبقًا على نطاق واسع للنمذجة الصوتية

Qiuqiang Kong Yin Cao Turab Iqbal Yuxuan Wang Wenwu Wang Mark D. Plumbley

الملخص

تمثّل اعتراف الأنماط الصوتية موضوعًا بحثيًا مهمًا في مجال التعلم الآلي، وتشمل عدة مهام مثل التصنيف الصوتي، وتصنيف المشهد الصوتي، وتصنيف الموسيقى، وتصنيف مشاعر الكلام، وكشف الأحداث الصوتية. في الآونة الأخيرة، تم تطبيق الشبكات العصبية على معالجة مشكلات اعتراف الأنماط الصوتية. ومع ذلك، كانت الأنظمة السابقة مبنية على مجموعات بيانات محددة ذات مدة محدودة. في الأونة الأخيرة، في مجال الرؤية الحاسوبية ومعالجة اللغة الطبيعية، أظهرت الأنظمة المُدرّبة مسبقًا على مجموعات بيانات كبيرة قدرة عالية على التعميم على عدة مهام. لكن هناك بحوث محدودة حول تدريب الأنظمة مسبقًا على مجموعات بيانات كبيرة في مجال اعتراف الأنماط الصوتية. في هذه الورقة، نقترح شبكات عصبية صوتية مُدرّبة مسبقًا (PANNs) تم تدريبها على مجموعة بيانات صوتية كبيرة تُسمى AudioSet. يتم نقل هذه PANNs إلى مهام أخرى مرتبطة بالصوت. ونُجري دراسة حول الأداء وتعقيد الحساب في PANNs التي تم نمذجتها باستخدام أنواع مختلفة من الشبكات العصبية التلافيفية. ونُقدّم معمارية تُسمى Wavegram-Logmel-CNN التي تستخدم كلًا من الطيف المُلّي اللوغاريتمي (log-mel spectrogram) والموجة الصوتية كمُدخلات مميزة. وتحقق أفضل نظام PANN لدينا دقة متوسطة متوسطة (mAP) قدرها 0.439 في مهمة التصنيف على AudioSet، متفوّقة على أفضل نظام سابق كان يحقق 0.392. وقد قمنا بنقل PANNs إلى ست مهام أخرى لاعتراف الأنماط الصوتية، وأظهرنا أداءً متميزًا في عدة منها. وقد أطلقنا الكود المصدري والنماذج المُدرّبة مسبقًا لـ PANNs عبر الرابط التالي: https://github.com/qiuqiangkong/audioset_tagging_cnn.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp