HyperAIHyperAI

Command Palette

Search for a command to run...

AST: محول الطيف الصوتي

Yuan Gong Yu-An Chung James Glass

الملخص

خلال العقد الماضي، تم اعتماد الشبكات العصبية التلافيفية (CNNs) على نطاق واسع كمكوّن أساسي رئيسي للنماذج النهائية لتصنيف الصوت، التي تهدف إلى تعلم تطابق مباشر من مخططات الطيف الصوتي إلى التصنيفات المقابلة. ولتحسين التقاط السياق العالمي على المدى الطويل، ظهرت مؤخرًا اتجاهات تتمثل في إضافة آلية انتباه ذاتي فوق الشبكة التلافيفية، مما يُشكّل نموذجًا هجينًا من نوع CNN-Attention. ومع ذلك، لا يزال غير واضح ما إذا كان الاعتماد على الشبكة التلافيفية ضروريًا، أو إن كانت الشبكات العصبية التي تعتمد حصريًا على آلية الانتباه كافية لتحقيق أداء جيد في تصنيف الصوت. في هذا البحث، نُجيب على هذا السؤال من خلال تقديم نموذج "مُحول مخطط الطيف الصوتي" (Audio Spectrogram Transformer أو AST)، وهو أول نموذج خالٍ من التلافيف ويعتمد حصريًا على آلية الانتباه لتصنيف الصوت. وقد قُمنا بتقييم AST على عدة معايير لتصنيف الصوت، حيث حقق نتائج جديدة قياسية، بلغت 0.485 في مؤشر mAP على بيانات AudioSet، ودقة 95.6% على ESC-50، ودقة 98.1% على مجموعة بيانات Speech Commands V2.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp