HyperAIHyperAI

Command Palette

Search for a command to run...

الشبكات العصبية المتشابكة الديناميكية كنماذج صوتية مسبقة التدريب وكفوءة

Florian Schmid Khaled Koutini Gerhard Widmer

الملخص

مقدمة مجموعات البيانات الصوتية الضخمة، مثل AudioSet، فتحت الطريق أمام نماذج الـ Transformers للاستيلاء على مجال الصوت وتعويض CNNs كأفضل هندسة للشبكات العصبية في العديد من المهام. تتميز نماذج الـ Audio Spectrogram Transformers بقدرتها على استغلال مجموعات البيانات الكبيرة وإنشاء نماذج مسبقة التدريب قوية تتفوق على CNNs عند التعديل الدقيق للمهام اللاحقة. ومع ذلك، فإن النماذج الحالية الشائعة من الـ Audio Spectrogram Transformers تتطلب تعقيدًا حاسوبيًا أكبر بكثير مقارنة بـ CNNs. مؤخرًا، أظهرنا أن استخدام تقنية نقل المعرفة من الـ Transformers إلى CNNs يمكن أن يساعد في جعل CNNs الفعالة تلحق بالـ Transformers وتتفوق عليها في مجموعات البيانات الكبيرة. في هذا البحث، نوسع نطاق هذه الأبحاث ونزيد قدرة CNNs الفعالة من خلال تقديم كتل CNN ديناميكية، تتكون من غير خطيات ديناميكية (dynamic non-linearities)، وعمليات التفتيش الديناميكية (dynamic convolutions) وآليات الانتباه (attention mechanisms). نوضح أن هذه الكتل CNN الديناميكية تتفوق على الكتل التقليدية الفعالة من حيث نسبة الأداء إلى التعقيد وكفاءة المعلمات في مهمة تصنيف الصوت على مجموعة البيانات الضخمة AudioSet. كما تشير تجاربنا إلى أن الكتل CNN الديناميكية التي تم تقديمها تحقق أداءً أفضل في المهام اللاحقة وتتوسع بشكل جيد، مما يصل إلى مستوى أداء الـ Transformers وحتى يتفوق عليها في AudioSet وعدة مهام لاحقة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp