HyperAIHyperAI

Command Palette

Search for a command to run...

النماذج التلقائية المقنعة للصوت والصورة

Mariana-Iuliana Georgescu Eduardo Fonseca Radu Tudor Ionescu Mario Lucic Cordelia Schmid Anurag Arnab

الملخص

هل يمكننا الاستفادة من المعلومات الصوتية والبصرية الموجودة مسبقًا في الفيديو لتحسين التعلم التمثيلي التلقائي؟ وللإجابة على هذا السؤال، ندرس مجموعة متنوعة من هياكل التدريب المسبق وأهدافه ضمن إطار الترميز المُغطَّى (masked autoencoding)، مستندين إلى النجاح الذي حققته أساليب مشابهة في فهم اللغة الطبيعية والصور. ونُظهر أننا نستطيع تحقيق تحسينات كبيرة في المهام التصنيفية الصوتية والبصرية اللاحقة، متفوّقين على الحد الأقصى الحالي للأداء على مجموعتي البيانات VGGSound وAudioSet. علاوةً على ذلك، يمكننا استغلال خوارزميتنا للتدريب المسبق الصوتية والبصرية في عدد من المهام اللاحقة أحادية النمط باستخدام نموذج تدريب مسبق واحد يعتمد على الصوت والصورة معًا. كما نُثبت قابلية نقل تمثيلاتنا، حيث نحقق نتائج صوتية وبصرية متقدمة على مجموعة بيانات Epic Kitchens دون الحاجة إلى تدريب مسبق مخصص لهذه المجموعة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp