HyperAIHyperAI

Command Palette

Search for a command to run...

DTF-AT: محول صوتي مُفصَّل في الزمن والتكرار للتصنيف الحدثي

Philip JB Jackson Muhammad Awais Armin Mustafa Sara Ahmed Tony Alex

الملخص

حصلت الشبكات العصبية التلافيفية (CNNs) والشبكات القائمة على المُحَوِّل (Transformer-based) على اهتمام كبير مؤخرًا في مهام تصنيف ووضع العلامات الصوتية المختلفة، وذلك بعد انتشارها الواسع في مجال الرؤية الحاسوبية. وعلى الرغم من الاختلاف في توزيع المعلومات بين مخططات الطيف الصوتي (audio spectrograms) والصور الطبيعية، فإن هناك استكشافًا محدودًا لاسترجاع المعلومات الفعّال من مخططات الطيف باستخدام طبقات مخصصة حسب المجال، مصممة خصيصًا للبيئة الصوتية. في هذه الورقة، نستفيد من قوة نموذج المُحَوِّل البصري متعدد المحاور (MaxViT) لتطوير نموذج DTF-AT (Decoupled Time-Frequency Audio Transformer)، الذي يُمكّن من التفاعل عبر الأبعاد الزمنية، والترددية، والمكانية، ومستويات القنوات. وقد تم تقييم معمّق لبنية DTF-AT المقترحة في مهام متنوعة لتصنيف الصوت والصوت الناطق، حيث تم إرساء معايير جديدة متميزة للأداء في مستوى الحد الأقصى (SOTA) بشكل مستمر. وبشكل ملحوظ، أظهرت النتائج تحسنًا كبيرًا بنسبة 4.4% في مهمة التصنيف الصوتي الصعبة AudioSet 2M عند تدريب النموذج من الصفر، وبنسبة 3.2% عند بدء التدريب باستخدام أوزان مُدرّبة مسبقًا على ImageNet-1K. بالإضافة إلى ذلك، نقدّم دراسات تحليلية شاملة لتقييم تأثير وفعالية النهج المُقترح. وتم توفير كود المشروع وأوزان النموذج المُدرّب مسبقًا على الرابط التالي: https://github.com/ta012/DTFAT.git


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp