DTF-AT: محول صوتي مُفصَّل في الزمن والتكرار للتصنيف الحدثي
{Philip JB Jackson Muhammad Awais Armin Mustafa Sara Ahmed Tony Alex}
الملخص
حصلت الشبكات العصبية التلافيفية (CNNs) والشبكات القائمة على المُحَوِّل (Transformer-based) على اهتمام كبير مؤخرًا في مهام تصنيف ووضع العلامات الصوتية المختلفة، وذلك بعد انتشارها الواسع في مجال الرؤية الحاسوبية. وعلى الرغم من الاختلاف في توزيع المعلومات بين مخططات الطيف الصوتي (audio spectrograms) والصور الطبيعية، فإن هناك استكشافًا محدودًا لاسترجاع المعلومات الفعّال من مخططات الطيف باستخدام طبقات مخصصة حسب المجال، مصممة خصيصًا للبيئة الصوتية. في هذه الورقة، نستفيد من قوة نموذج المُحَوِّل البصري متعدد المحاور (MaxViT) لتطوير نموذج DTF-AT (Decoupled Time-Frequency Audio Transformer)، الذي يُمكّن من التفاعل عبر الأبعاد الزمنية، والترددية، والمكانية، ومستويات القنوات. وقد تم تقييم معمّق لبنية DTF-AT المقترحة في مهام متنوعة لتصنيف الصوت والصوت الناطق، حيث تم إرساء معايير جديدة متميزة للأداء في مستوى الحد الأقصى (SOTA) بشكل مستمر. وبشكل ملحوظ، أظهرت النتائج تحسنًا كبيرًا بنسبة 4.4% في مهمة التصنيف الصوتي الصعبة AudioSet 2M عند تدريب النموذج من الصفر، وبنسبة 3.2% عند بدء التدريب باستخدام أوزان مُدرّبة مسبقًا على ImageNet-1K. بالإضافة إلى ذلك، نقدّم دراسات تحليلية شاملة لتقييم تأثير وفعالية النهج المُقترح. وتم توفير كود المشروع وأوزان النموذج المُدرّب مسبقًا على الرابط التالي: https://github.com/ta012/DTFAT.git
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| audio-classification-on-audioset | DTF-AT (Single) | Test mAP: 0.486 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.