التعلم التمثيلي عبر الوسائط لتمييز الحركات بدون عينة

نُقدِّم إطارًا قائمًا على محول عبر الوسائط (cross-modal Transformer)، يُشغِّل ترميز البيانات المرئية والعلامات النصية معًا لتمييز الأفعال في بيئة صفرية (ZSAR). يعتمد نموذجنا على مسار مفاهيمي جديد، حيث يتم تعلُّم التمثيلات البصرية بالتزامن مع الروابط البصرية-الدلالية بطريقة نهائية (end-to-end). ويُوفِّر تصميم النموذج آلية طبيعية لتعلم التمثيلات البصرية والدلالية داخل فضاء معرفي مشترك، مما يُشجِّع التمثيلات البصرية المُتعلَّمة على أن تكون أكثر تمييزًا واتساقًا دلاليًا. وفي عملية الاستدلال الصفرية، نُصمِّم خطة بسيطة لنقل الدلالة، تُدمج معلومات الصلة الدلالية بين الفئات المرئية والغير مرئية لتكوين نماذج بصرية غير مرئية. وبذلك، يمكن الحفاظ على السمات التمييزية في البنية البصرية واستغلالها لتقليل المشكلات الشائعة في السياقات الصفرية، مثل فقدان المعلومات، والفجوة الدلالية، ومشكلة التجميع (hubness). وباستخدام بيئة صفرية صارمة (بدون تدريب مسبق على مجموعات بيانات إضافية)، تُظهر نتائج التجارب تحسنًا ملحوظًا على أفضل النماذج الحالية في ZSAR، مع تحقيق دقة ممتازة في التصنيف الأول (top-1) على مجموعات بيانات معيارية مثل UCF101 وHMDB51 وActivityNet. وسيتم إتاحة الشفرة المصدرية لاحقًا.