HTS-AT: نموذج ترانسفورمر الصوتي الهرمي القائم على الرموز والدلالات للتصنيف والكشف الصوتي

تصنيف الصوت هو مهمة مهمة تتمثل في ربط عينات الصوت بفئاتها المقابلة. في الآونة الأخيرة، تم اعتماد نموذج المحول (Transformer) الذي يعتمد على آليات الانتباه الذاتي في هذا المجال. ومع ذلك، فإن المحولات الصوتية الحالية تتطلب ذاكرة وحدة معالجة رسومات (GPU) كبيرة ووقت تدريب طويل، وفي الوقت نفسه تعتمد على نماذج بصرية مُدرّبة مسبقًا لتحقيق أداء عالٍ، مما يحد من قابلية توسيع النموذج في المهام الصوتية. لمواجهة هذه المشكلات، نقدّم نموذج HTS-AT: محول صوتي يعتمد على بنية تسلسلية (هيراركية) لتقليل حجم النموذج ووقت التدريب. كما يتم دمجه مع وحدة رمز-معني (Token-Semantic) لتحويل الإخراج النهائي إلى خرائط ميزات فئات، مما يمكّن النموذج من أداء كشف الأحداث الصوتية (أي تحديد الموقع الزمني لها). قمنا بتقييم HTS-AT على ثلاث مجموعات بيانات لتصنيف الصوت، حيث حقق نتائج جديدة متفوّقة على مستوى الحالة (SOTA) في مجموعتي بيانات AudioSet وESC-50، وحقق أداءً مساويًا للحالة المتطورة في Speech Command V2. كما حقق أداءً أفضل في تحسين تحديد مواقع الأحداث مقارنة بالنماذج القائمة على الشبكات العصبية التلافيفية (CNN) السابقة. علاوةً على ذلك، يتطلب HTS-AT فقط 35% من عدد معاملات النموذج و15% من وقت التدريب مقارنةً بالمحولات الصوتية السابقة. تُظهر هذه النتائج كفاءة عالية وأداءً متميزًا لنموذج HTS-AT.