HyperAIHyperAI
منذ 16 أيام

PANNs: شبكات عصبية صوتية مُدرّبة مسبقًا على نطاق واسع للنمذجة الصوتية

Qiuqiang Kong, Yin Cao, Turab Iqbal, Yuxuan Wang, Wenwu Wang, Mark D. Plumbley
PANNs: شبكات عصبية صوتية مُدرّبة مسبقًا على نطاق واسع للنمذجة الصوتية
الملخص

تمثّل اعتراف الأنماط الصوتية موضوعًا بحثيًا مهمًا في مجال التعلم الآلي، وتشمل عدة مهام مثل التصنيف الصوتي، وتصنيف المشهد الصوتي، وتصنيف الموسيقى، وتصنيف مشاعر الكلام، وكشف الأحداث الصوتية. في الآونة الأخيرة، تم تطبيق الشبكات العصبية على معالجة مشكلات اعتراف الأنماط الصوتية. ومع ذلك، كانت الأنظمة السابقة مبنية على مجموعات بيانات محددة ذات مدة محدودة. في الأونة الأخيرة، في مجال الرؤية الحاسوبية ومعالجة اللغة الطبيعية، أظهرت الأنظمة المُدرّبة مسبقًا على مجموعات بيانات كبيرة قدرة عالية على التعميم على عدة مهام. لكن هناك بحوث محدودة حول تدريب الأنظمة مسبقًا على مجموعات بيانات كبيرة في مجال اعتراف الأنماط الصوتية. في هذه الورقة، نقترح شبكات عصبية صوتية مُدرّبة مسبقًا (PANNs) تم تدريبها على مجموعة بيانات صوتية كبيرة تُسمى AudioSet. يتم نقل هذه PANNs إلى مهام أخرى مرتبطة بالصوت. ونُجري دراسة حول الأداء وتعقيد الحساب في PANNs التي تم نمذجتها باستخدام أنواع مختلفة من الشبكات العصبية التلافيفية. ونُقدّم معمارية تُسمى Wavegram-Logmel-CNN التي تستخدم كلًا من الطيف المُلّي اللوغاريتمي (log-mel spectrogram) والموجة الصوتية كمُدخلات مميزة. وتحقق أفضل نظام PANN لدينا دقة متوسطة متوسطة (mAP) قدرها 0.439 في مهمة التصنيف على AudioSet، متفوّقة على أفضل نظام سابق كان يحقق 0.392. وقد قمنا بنقل PANNs إلى ست مهام أخرى لاعتراف الأنماط الصوتية، وأظهرنا أداءً متميزًا في عدة منها. وقد أطلقنا الكود المصدري والنماذج المُدرّبة مسبقًا لـ PANNs عبر الرابط التالي: https://github.com/qiuqiangkong/audioset_tagging_cnn.

PANNs: شبكات عصبية صوتية مُدرّبة مسبقًا على نطاق واسع للنمذجة الصوتية | أحدث الأوراق البحثية | HyperAI