HyperAIHyperAI

Command Palette

Search for a command to run...

ماسكتد أوتوإينكودرز التي تستمع

Po-Yao Huang Hu Xu Juncheng Li Alexei Baevski Michael Auli Wojciech Galuba Florian Metze Christoph Feichtenhofer

الملخص

يدرس هذا البحث تمديدًا بسيطًا لنموذج الترميز المقنع القائم على الصور (MAE) لتعلم التمثيل ذاتي التدريب من مخططات الطيف الصوتي. باعتماد تصميم مشابه لمحول encoder-decoder في MAE، يقوم Audio-MAE أولاً بتشفير قطع مخطط الطيف الصوتي باستخدام نسبة تغطية عالية، مع تمرير الرموز غير المغطاة فقط عبر طبقات المُشفّر. ثم يقوم المُفكّك بإعادة ترتيب السياق المشفر، مع إضافة رموز التغطية، لاستعادة مخطط الطيف الأصلي. وجدنا أن دمج الانتباه النافذ المحلي في المُفكّك يكون مفيدًا، نظرًا لدرجة الارتباط العالية بين مكونات مخطط الطيف الصوتي في المجالات الزمنية والتكرارية المحلية. بعد ذلك، نُعدّل المُشفّر بدقة باستخدام نسبة تغطية أقل على مجموعات البيانات المستهدفة. من الناحية التجريبية، حقق Audio-MAE أداءً جديدًا في الصدارة على ستة مهام تصنيف صوتي وصوتيات، متفوقًا على نماذج حديثة أخرى تعتمد على التدريب المُراقب الخارجي. سيتم نشر الشفرة والنماذج على: https://github.com/facebookresearch/AudioMAE.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp