HyperAIHyperAI

Command Palette

Search for a command to run...

XKD: التعلم بالتقطير المعرفي عبر الأوضاع مع محاذاة المجال لتمثيل الفيديو

Pritam Sarkar Ali Etemad

الملخص

نقدم إطارًا ذاتي التدريب جديدًا يُعرف بـ XKD، لتعلم تمثيلات ذات معنى من مقاطع الفيديو غير المصنفة. يتم تدريب XKD باستخدام هدفين وهميين. أولاً، يتم إجراء إعادة بناء البيانات المقنعة لتعلم التمثيلات الخاصة بكل وسيلة من الوسائط السمعية والبصرية. ثانياً، يتم تنفيذ التقطير المعرفي العابر للوسائط بشكل ذاتي بين الوسيلتين من خلال نظام معلم-طالب لتعلم المعلومات التكميلية. نقدم استراتيجية تناسق مجال جديدة للتغلب على الاختلاف بين المجالين السمعي والبصري، مما يمكّن من تقطير فعال للمعرفة العابر للوسائط. بالإضافة إلى ذلك، لتطوير شبكة عامة قادرة على التعامل مع كل من الوسائط السمعية والبصرية، تم تقديم نسخ محايدة للوسائط من XKD، والتي تستخدم نفس النواة المدربة مسبقًا لأداء مهام مختلفة سمعية وبصرية. يحسن تقترحنا للتقطير المعرفي العابر للوسائط تصنيف الأفعال في الفيديو بنسبة تتراوح بين 8٪ و14٪ على مجموعات بيانات UCF101 وHMDB51 وKinetics400. بالإضافة إلى ذلك، يحسن XKD تصنيف الأفعال متعددة الوسائط بنسبة 5.5٪ على Kinetics-Sound. يظهر XKD أداءً رائدًا في تصنيف الصوت على ESC50، حيث حقق دقة مرتبة أولى بلغت 96.5٪ (top-1 accuracy).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp