HyperAIHyperAI

Command Palette

Search for a command to run...

HTS-AT: نموذج ترانسفورمر الصوتي الهرمي القائم على الرموز والدلالات للتصنيف والكشف الصوتي

Ke Chen Xingjian Du Bilei Zhu Zejun Ma Taylor Berg-Kirkpatrick Shlomo Dubnov

الملخص

تصنيف الصوت هو مهمة مهمة تتمثل في ربط عينات الصوت بفئاتها المقابلة. في الآونة الأخيرة، تم اعتماد نموذج المحول (Transformer) الذي يعتمد على آليات الانتباه الذاتي في هذا المجال. ومع ذلك، فإن المحولات الصوتية الحالية تتطلب ذاكرة وحدة معالجة رسومات (GPU) كبيرة ووقت تدريب طويل، وفي الوقت نفسه تعتمد على نماذج بصرية مُدرّبة مسبقًا لتحقيق أداء عالٍ، مما يحد من قابلية توسيع النموذج في المهام الصوتية. لمواجهة هذه المشكلات، نقدّم نموذج HTS-AT: محول صوتي يعتمد على بنية تسلسلية (هيراركية) لتقليل حجم النموذج ووقت التدريب. كما يتم دمجه مع وحدة رمز-معني (Token-Semantic) لتحويل الإخراج النهائي إلى خرائط ميزات فئات، مما يمكّن النموذج من أداء كشف الأحداث الصوتية (أي تحديد الموقع الزمني لها). قمنا بتقييم HTS-AT على ثلاث مجموعات بيانات لتصنيف الصوت، حيث حقق نتائج جديدة متفوّقة على مستوى الحالة (SOTA) في مجموعتي بيانات AudioSet وESC-50، وحقق أداءً مساويًا للحالة المتطورة في Speech Command V2. كما حقق أداءً أفضل في تحسين تحديد مواقع الأحداث مقارنة بالنماذج القائمة على الشبكات العصبية التلافيفية (CNN) السابقة. علاوةً على ذلك، يتطلب HTS-AT فقط 35% من عدد معاملات النموذج و15% من وقت التدريب مقارنةً بالمحولات الصوتية السابقة. تُظهر هذه النتائج كفاءة عالية وأداءً متميزًا لنموذج HTS-AT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp