XKD: التعلم بالتقطير المعرفي عبر الأوضاع مع محاذاة المجال لتمثيل الفيديو

نقدم إطارًا ذاتي التدريب جديدًا يُعرف بـ XKD، لتعلم تمثيلات ذات معنى من مقاطع الفيديو غير المصنفة. يتم تدريب XKD باستخدام هدفين وهميين. أولاً، يتم إجراء إعادة بناء البيانات المقنعة لتعلم التمثيلات الخاصة بكل وسيلة من الوسائط السمعية والبصرية. ثانياً، يتم تنفيذ التقطير المعرفي العابر للوسائط بشكل ذاتي بين الوسيلتين من خلال نظام معلم-طالب لتعلم المعلومات التكميلية. نقدم استراتيجية تناسق مجال جديدة للتغلب على الاختلاف بين المجالين السمعي والبصري، مما يمكّن من تقطير فعال للمعرفة العابر للوسائط. بالإضافة إلى ذلك، لتطوير شبكة عامة قادرة على التعامل مع كل من الوسائط السمعية والبصرية، تم تقديم نسخ محايدة للوسائط من XKD، والتي تستخدم نفس النواة المدربة مسبقًا لأداء مهام مختلفة سمعية وبصرية. يحسن تقترحنا للتقطير المعرفي العابر للوسائط تصنيف الأفعال في الفيديو بنسبة تتراوح بين 8٪ و14٪ على مجموعات بيانات UCF101 وHMDB51 وKinetics400. بالإضافة إلى ذلك، يحسن XKD تصنيف الأفعال متعددة الوسائط بنسبة 5.5٪ على Kinetics-Sound. يظهر XKD أداءً رائدًا في تصنيف الصوت على ESC50، حيث حقق دقة مرتبة أولى بلغت 96.5٪ (top-1 accuracy).