HyperAIHyperAI

Command Palette

Search for a command to run...

مُشغِّل الترميز الذاتي السمعي البصري المُقابِل

Yuan Gong; Andrew Rouditchenko; Alexander H. Liu; David Harwath; Leonid Karlinsky; Hilde Kuehne; James Glass

الملخص

في هذا البحث، نوسع أولاً نموذج الترميز الآلي المقنّع (MAE) الحديث من وسيلة واحدة إلى وسائط متعددة سمعية وبصرية. ثم نقترح نموذج الترميز الآلي المقنّع السمعي البصري المقارن (CAV-MAE) من خلال دمج تعلم التباين والنمذجة البيانات المقنّعة، وهما إطاران رئيسيان للتعلم الذاتي بدون إشراف، لتعلم تمثيل سمعي بصري مشترك ومنسق. تظهر تجاربنا أن هدف تعلم التوافق السمعي البصري المقارن لا يمكّن النموذج فقط من أداء مهام الاسترجاع السمعي البصري، بل يساعد أيضًا في تعلم تمثيل مشترك أفضل. نتيجة لذلك، حقق نموذج CAV-MAE الذي تم تدريبه بشكل ذاتي بالكامل دقة جديدة قياسية تبلغ 65.9٪ على مجموعة بيانات VGGSound، وهو مكافئ لأفضل نموذج تم تدريبه بإشراف سابق على مجموعة بيانات AudioSet في مهمة تصنيف الأحداث السمعية البصرية. يمكن الوصول إلى الكود والنموذج المدرب مسبقًا عبر الرابط: https://github.com/yuangongnd/cav-mae.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مُشغِّل الترميز الذاتي السمعي البصري المُقابِل | مستندات | HyperAI