أعرف العلاقات: التعرف على الإجراءات بدون عينات عبر الشبكات التلافيفية الرسومية ثنائية التدفق والرسوم المعرفية
في الآونة الأخيرة، ومع التوسع المستمر في عدد فئات الإجراءات، تم تحقيق التعرف على الإجراءات بدون تدريب مسبق (ZSAR) من خلال استخراج المفاهيم الكامنة (مثل الإجراءات والسمات) تلقائيًا من الفيديوهات. ومع ذلك، فإن معظم الطرق الحالية تستفيد فقط من الإشارات البصرية لهذه المفاهيم، وتتجاهل المعلومات المعرفية الخارجية اللازمة لتمثيل العلاقات الصريحة بينها. في الواقع، يتمتع البشر بقدرة مميزة على نقل المعرفة المكتسبة من الفئات المألوفة إلى التعرف على الفئات غير المألوفة. وللتقليل من الفجوة المعرفية بين الطرق الحالية والبشر، نقترح إطارًا منتهيًا-إلى-نهائيًا للـ ZSAR مبنيًا على رسم معرفي منظم، يمكنه نمذجة العلاقات بين الإجراء-السمة، والإجراء-الإجراء، والسمة-السمة بشكل مشترك. ولتمكين الاستفادة الفعالة من الرسم المعرفي، نصمم شبكة توليفية رسمية ثنائية التدفق (TS-GCN) جديدة، تتكون من فرع تصنيف وفرع مثيل. وبشكل محدد، يأخذ الفرع التصنيفي المتجهات المُدمجة معنويًا لجميع المفاهيم كمدخل، ثم يُولّد فُصُول التصنيف لفئات الإجراءات. أما الفرع المثيل، فيُحوّل متجهات السمات ودرجات كل مثيل في الفيديو إلى فضاء ميزات السمة. في النهاية، تُقيَّم الفُصوص المولدة على ميزات السمات لكل فيديو، وتُستخدم دالة خسارة تصنيفية لتحسين الشبكة بأكملها. علاوةً على ذلك، يتم استخدام وحدة انتباه ذاتي لتمثيل المعلومات الزمنية في الفيديوهات. وتوّفر النتائج التجريبية الواسعة على ثلاث معايير واقعية للإجراءات (Olympic Sports، HMDB51، وUCF101) أدلة قوية على الأداء المتميز لإطارنا المُقترح.