
خلال العقد الماضي، تم اعتماد الشبكات العصبية التلافيفية (CNNs) على نطاق واسع كمكوّن أساسي رئيسي للنماذج النهائية لتصنيف الصوت، التي تهدف إلى تعلم تطابق مباشر من مخططات الطيف الصوتي إلى التصنيفات المقابلة. ولتحسين التقاط السياق العالمي على المدى الطويل، ظهرت مؤخرًا اتجاهات تتمثل في إضافة آلية انتباه ذاتي فوق الشبكة التلافيفية، مما يُشكّل نموذجًا هجينًا من نوع CNN-Attention. ومع ذلك، لا يزال غير واضح ما إذا كان الاعتماد على الشبكة التلافيفية ضروريًا، أو إن كانت الشبكات العصبية التي تعتمد حصريًا على آلية الانتباه كافية لتحقيق أداء جيد في تصنيف الصوت. في هذا البحث، نُجيب على هذا السؤال من خلال تقديم نموذج "مُحول مخطط الطيف الصوتي" (Audio Spectrogram Transformer أو AST)، وهو أول نموذج خالٍ من التلافيف ويعتمد حصريًا على آلية الانتباه لتصنيف الصوت. وقد قُمنا بتقييم AST على عدة معايير لتصنيف الصوت، حيث حقق نتائج جديدة قياسية، بلغت 0.485 في مؤشر mAP على بيانات AudioSet، ودقة 95.6% على ESC-50، ودقة 98.1% على مجموعة بيانات Speech Commands V2.