Transformer متعدد المقياسات لطيف الصوت الفعّال لتصنيف الصوت

يتميز الحدث الصوتي ببنية هرمية في كل من الزمن والتكرار، ويمكن جمعه معًا لتكوين فئات صوتية معنوية أكثر تعميمًا. في هذا العمل، نطور نموذجًا للتحويل الصوتي متعدد المقياس (MAST) الذي يستخدم التعلم التمثيلي الهرمي لتصنيف صوتي فعّال. بشكل خاص، يُطبّق MAST مشغلات التجميع ذات البعد الواحد (والمزدوج الأبعاد) على طول محور الزمن (والتكرار) في المراحل المختلفة، ويقلل تدريجيًا عدد الرموز (tokens) ويزيد من أبعاد الميزات. يتفوق MAST بشكل ملحوظ على نموذج AST~\cite{gong2021ast} بنسبة 22.2% و4.4% و4.7% على مجموعات بيانات Kinetics-Sounds وEpic-Kitchens-100 وVGGSound من حيث دقة التصنيف الأولى (top-1 accuracy) دون استخدام بيانات تدريب خارجية. وعلى مجموعة بيانات AudioSet التي تم تنزيلها، والتي تحتوي على أكثر من 20% من الصور الصوتية المفقودة، يحقق MAST دقة أعلى قليلاً مقارنة بـ AST. بالإضافة إلى ذلك، فإن MAST أكثر كفاءة بخمس مرات من حيث عدد العمليات الحسابية (MACs)، مع تقليل بنسبة 42% في عدد المعلمات مقارنة بـ AST. من خلال مقاييس التجميع والتصورات البصرية، نُظهر أن MAST المُقترح قادر على استخلاص تمثيلات مميزة ذات معنى أكثر من الإشارات الصوتية.