منذ 2 أشهر

الشبكات العصبية المتشابكة الديناميكية كنماذج صوتية مسبقة التدريب وكفوءة

Schmid, Florian ; Koutini, Khaled ; Widmer, Gerhard

الملخص

مقدمة مجموعات البيانات الصوتية الضخمة، مثل AudioSet، فتحت الطريق أمام نماذج الـ Transformers للاستيلاء على مجال الصوت وتعويض CNNs كأفضل هندسة للشبكات العصبية في العديد من المهام. تتميز نماذج الـ Audio Spectrogram Transformers بقدرتها على استغلال مجموعات البيانات الكبيرة وإنشاء نماذج مسبقة التدريب قوية تتفوق على CNNs عند التعديل الدقيق للمهام اللاحقة. ومع ذلك، فإن النماذج الحالية الشائعة من الـ Audio Spectrogram Transformers تتطلب تعقيدًا حاسوبيًا أكبر بكثير مقارنة بـ CNNs. مؤخرًا، أظهرنا أن استخدام تقنية نقل المعرفة من الـ Transformers إلى CNNs يمكن أن يساعد في جعل CNNs الفعالة تلحق بالـ Transformers وتتفوق عليها في مجموعات البيانات الكبيرة. في هذا البحث، نوسع نطاق هذه الأبحاث ونزيد قدرة CNNs الفعالة من خلال تقديم كتل CNN ديناميكية، تتكون من غير خطيات ديناميكية (dynamic non-linearities)، وعمليات التفتيش الديناميكية (dynamic convolutions) وآليات الانتباه (attention mechanisms). نوضح أن هذه الكتل CNN الديناميكية تتفوق على الكتل التقليدية الفعالة من حيث نسبة الأداء إلى التعقيد وكفاءة المعلمات في مهمة تصنيف الصوت على مجموعة البيانات الضخمة AudioSet. كما تشير تجاربنا إلى أن الكتل CNN الديناميكية التي تم تقديمها تحقق أداءً أفضل في المهام اللاحقة وتتوسع بشكل جيد، مما يصل إلى مستوى أداء الـ Transformers وحتى يتفوق عليها في AudioSet وعدة مهام لاحقة.