كل ما يتعلق برسوم المعرفة للإجراءات

تتطلب أنظمة التعرف على الحركات الحالية كميات كبيرة من بيانات التدريب للتعرف على حركات معينة. وقامت الدراسات الحديثة باستكشاف نموذج التعلم الصفري (zero-shot) والتعلم بقليل من الأمثلة (few-shot) من أجل تعلّم تصنيفات للتصنيفات غير المرئية أو تلك التي تمتلك عددًا قليلاً من التسميات. وباتباع نماذج مشابهة في التعرف على الكائنات، تستخدم هذه النماذج مصادر خارجية للمعرفة (مثل الرسوم البيانية للمعرفة من المجالات اللغوية). ومع ذلك، على عكس الكائنات، لا يزال غير واضح ما هو أفضل تمثيل للمعرفة للحركات. في هذه الورقة، نسعى إلى فهم أعمق للرسوم البيانية للمعرفة (KGs) التي يمكن استخدامها في التعرف على الحركات الصفري والقليل من الأمثلة. وبشكل خاص، ندرس ثلاث آليات مختلفة لبناء الرسوم البيانية للمعرفة: تمثيلات الحركات (action embeddings)، وتمثيلات الحركات-الكائنات (action-object embeddings)، وتمثيلات بصرية (visual embeddings). ونقدّم تحليلًا موسّعًا لتأثير مختلف الرسوم البيانية للمعرفة في مختلف الإعدادات التجريبية. وأخيرًا، ولتمكين دراسة منهجية للنماذج الصفريّة والقليلة الأمثلة، نقترح نموذج تقييم مُحسّن يستند إلى مجموعات بيانات UCF101 وHMDB51 وCharades، بهدف نقل المعرفة من النماذج التي تم تدريبها على بيانات Kinetics.