HyperAIHyperAI

Command Palette

Search for a command to run...

Transformer متعدد المقياسات لطيف الصوت الفعّال لتصنيف الصوت

Wentao Zhu Mohamed Omar

الملخص

يتميز الحدث الصوتي ببنية هرمية في كل من الزمن والتكرار، ويمكن جمعه معًا لتكوين فئات صوتية معنوية أكثر تعميمًا. في هذا العمل، نطور نموذجًا للتحويل الصوتي متعدد المقياس (MAST) الذي يستخدم التعلم التمثيلي الهرمي لتصنيف صوتي فعّال. بشكل خاص، يُطبّق MAST مشغلات التجميع ذات البعد الواحد (والمزدوج الأبعاد) على طول محور الزمن (والتكرار) في المراحل المختلفة، ويقلل تدريجيًا عدد الرموز (tokens) ويزيد من أبعاد الميزات. يتفوق MAST بشكل ملحوظ على نموذج AST~\cite{gong2021ast} بنسبة 22.2% و4.4% و4.7% على مجموعات بيانات Kinetics-Sounds وEpic-Kitchens-100 وVGGSound من حيث دقة التصنيف الأولى (top-1 accuracy) دون استخدام بيانات تدريب خارجية. وعلى مجموعة بيانات AudioSet التي تم تنزيلها، والتي تحتوي على أكثر من 20% من الصور الصوتية المفقودة، يحقق MAST دقة أعلى قليلاً مقارنة بـ AST. بالإضافة إلى ذلك، فإن MAST أكثر كفاءة بخمس مرات من حيث عدد العمليات الحسابية (MACs)، مع تقليل بنسبة 42% في عدد المعلمات مقارنة بـ AST. من خلال مقاييس التجميع والتصورات البصرية، نُظهر أن MAST المُقترح قادر على استخلاص تمثيلات مميزة ذات معنى أكثر من الإشارات الصوتية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp