HyperAIHyperAI

Command Palette

Search for a command to run...

التصنيف الصوتي على نطاق واسع بكفاءة من خلال نقل المعرفة من المحول إلى الشبكة العصبية التلافيفية

Florian Schmid Khaled Koutini Gerhard Widmer

الملخص

تنافس نماذج التحويلات الطيفية الصوتية (Audio Spectrogram Transformer) في مجال التصنيف الصوتي، وتتفوق على الشبكات العصبية التلافيفية (CNNs) التي كانت سائدة سابقًا. وتُعزى هذه الميزة إلى قدرتها على التوسع واستغلال مجموعات بيانات ضخمة مثل AudioSet. ومع ذلك، فإن نماذج التحويلات تتطلب حجمًا كبيرًا للنموذج ومتطلبات حسابية أعلى مقارنةً بالشبكات التلافيفية. نقترح عملية تدريب فعّالة للشبكات التلافيفية تعتمد على التعلم من التمييز المعرفي (Knowledge Distillation) غير المباشر من نماذج التحويلات المعقدة ذات الأداء العالي. يؤدي النموذج التدريبي المقترح، إلى جانب التصميم الفعّال للشبكات التلافيفية المستند إلى MobileNetV3، إلى نماذج تتفوق على الحلول السابقة من حيث كفاءة عدد المعلمات والحسابات، بالإضافة إلى أداء التنبؤ. نقدّم نماذج بمستويات مختلفة من التعقيد، تمتد من النماذج ذات التعقيد المنخفض إلى نموذج جديد يحقق أداءً رائدًا في مجال التصنيف الصوتي بقيمة 0.483 mAP على مجموعة بيانات AudioSet. يمكن الاطلاع على الشيفرة المصدرية من خلال الرابط التالي: https://github.com/fschmid56/EfficientAT


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp