التمرين التوسعي للتعرف على الإجراءات بدون عينات

أصبح عدد فئات الإجراءات المتزايد يشكل تحديًا جديدًا لفهم الفيديو، مما جعل التعرف على الإجراءات الصفرية (ZSAR) اتجاهًا مزدهرًا. يهدف مهام ZSAR إلى التعرف على إجراءات مستهدفة (غير مرئية) دون أمثلة تدريبية، وذلك من خلال الاستفادة من التمثيلات الدلالية لربط الإجراءات المرئية بالإجراءات غير المرئية. ومع ذلك، نظرًا لتعقيد وتعدد الإجراءات، يظل من الصعب تمثيل فئات الإجراءات دلاليًا ونقل المعرفة من البيانات المرئية إلى غير المرئية. في هذا العمل، نقترح نموذج ZSAR المُعزز بتقنية ER، مستوحى من تقنية ذاكرة بشرية فعّالة تُعرف بـ "التمرين التوسعي" (Elaborative Rehearsal)، والتي تتمثل في تعميق فهم مفهوم جديد وربطه بمفاهيم معروفة. بشكل محدد، نوسع كل فئة إجراء إلى جملة وصف توسعي (ED)، وهي أكثر تمييزًا من اسم الفئة وأقل تكلفة من الخصائص المحددة يدويًا. بالإضافة إلى محاذاة التمثيل الدلالي للصفات مع الفيديوهات مباشرة، ندمج كائنات من الفيديو كمفاهيم توسعية (EC) لتحسين التمثيل الدلالي للفيديو وتعزيز القدرة على التعميم من الإجراءات المرئية إلى غير المرئية. يحقق نموذج ZSAR المُعزز بـ ER نتائج رائدة على ثلاث معايير موجودة. علاوةً على ذلك، نقترح بروتوكول تقييم جديد لـ ZSAR على مجموعة بيانات Kinetics للتغلب على قيود المعايير الحالية، ونُظهر أول حالة يتم فيها تحقيق أداء ZSAR يعادل أداء نماذج التعلم بعينات قليلة في بيئة أكثر واقعية. سيتم إتاحة كودنا والبيانات المجمعة من جمل ED عبر الرابط: https://github.com/DeLightCMU/ElaborativeRehearsal.