منذ 6 أشهر

الملخص

تمثّل اعتراف الأنماط الصوتية موضوعًا بحثيًا مهمًا في مجال التعلم الآلي، وتشمل عدة مهام مثل التصنيف الصوتي، وتصنيف المشهد الصوتي، وتصنيف الموسيقى، وتصنيف مشاعر الكلام، وكشف الأحداث الصوتية. في الآونة الأخيرة، تم تطبيق الشبكات العصبية على معالجة مشكلات اعتراف الأنماط الصوتية. ومع ذلك، كانت الأنظمة السابقة مبنية على مجموعات بيانات محددة ذات مدة محدودة. في الأونة الأخيرة، في مجال الرؤية الحاسوبية ومعالجة اللغة الطبيعية، أظهرت الأنظمة المُدرّبة مسبقًا على مجموعات بيانات كبيرة قدرة عالية على التعميم على عدة مهام. لكن هناك بحوث محدودة حول تدريب الأنظمة مسبقًا على مجموعات بيانات كبيرة في مجال اعتراف الأنماط الصوتية. في هذه الورقة، نقترح شبكات عصبية صوتية مُدرّبة مسبقًا (PANNs) تم تدريبها على مجموعة بيانات صوتية كبيرة تُسمى AudioSet. يتم نقل هذه PANNs إلى مهام أخرى مرتبطة بالصوت. ونُجري دراسة حول الأداء وتعقيد الحساب في PANNs التي تم نمذجتها باستخدام أنواع مختلفة من الشبكات العصبية التلافيفية. ونُقدّم معمارية تُسمى Wavegram-Logmel-CNN التي تستخدم كلًا من الطيف المُلّي اللوغاريتمي (log-mel spectrogram) والموجة الصوتية كمُدخلات مميزة. وتحقق أفضل نظام PANN لدينا دقة متوسطة متوسطة (mAP) قدرها 0.439 في مهمة التصنيف على AudioSet، متفوّقة على أفضل نظام سابق كان يحقق 0.392. وقد قمنا بنقل PANNs إلى ست مهام أخرى لاعتراف الأنماط الصوتية، وأظهرنا أداءً متميزًا في عدة منها. وقد أطلقنا الكود المصدري والنماذج المُدرّبة مسبقًا لـ PANNs عبر الرابط التالي: https://github.com/qiuqiangkong/audioset_tagging_cnn.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Qiuqiang Kong Yin Cao Turab Iqbal Yuxuan Wang Wenwu Wang Mark D. Plumbley

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Qiuqiang Kong Yin Cao Turab Iqbal Yuxuan Wang Wenwu Wang Mark D. Plumbley

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Qiuqiang Kong Yin Cao Turab Iqbal Yuxuan Wang Wenwu Wang Mark D. Plumbley

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

PANNs: شبكات عصبية صوتية مُدرّبة مسبقًا على نطاق واسع للنمذجة الصوتية

Qiuqiang Kong Yin Cao Turab Iqbal Yuxuan Wang Wenwu Wang Mark D. Plumbley

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

PANNs: شبكات عصبية صوتية مُدرّبة مسبقًا على نطاق واسع للنمذجة الصوتية

Qiuqiang Kong Yin Cao Turab Iqbal Yuxuan Wang Wenwu Wang Mark D. Plumbley

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

PANNs: شبكات عصبية صوتية مُدرّبة مسبقًا على نطاق واسع للنمذجة الصوتية

Qiuqiang Kong Yin Cao Turab Iqbal Yuxuan Wang Wenwu Wang Mark D. Plumbley

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters