إعادة التفكير في التعرف على الإجراءات الصفرية: التعلم من الإجراءات الذرية الكامنة

لتجنب دورة التصنيف الزمنية المستهلكة والتدريب повторно عند تطبيق نماذج التعرف على الإجراءات المُعلَّمة، أصبح التعرف على الإجراءات الصفرية (ZSAR) اتجاهًا مزدهرًا. يُطلب من نماذج ZSAR التعرف على إجراءات لم تظهر مطلقًا في مجموعة التدريب من خلال ربط السمات البصرية بالتمثيلات الدلالية. ومع ذلك، نظرًا لتعقيد الإجراءات، يظل نقل المعرفة المكتسبة من المجال المصدر إلى المجال الهدف تحديًا كبيرًا. ركزت الطرق السابقة لـ ZSAR بشكل رئيسي على تقليل التباين في التمثيل بين الإجراءات المصدرية والهدفية من خلال دمج أو تطبيق سمات جديدة على مستوى الإجراء. لكن السمات على مستوى الإجراء تكون خشنة، مما يجعل الجسر الواحد-إلى-واحد المُتعلّم عرضة للاختلال أمام إجراءات هدفية مشابهة. علاوةً على ذلك، يتطلب دمج أو تطبيق السمات غالبًا حسابات إضافية أو تسميات يدوية. لم تلاحظ هذه الطرق أن إجراءين مختلفين من حيث الاسم قد يشتركان في نفس المكونات الأساسية للإجراء. وهذا ما يمكّن البشر من فهم سريع لإجراء غير معروف، بالاعتماد على مجموعة من المكونات الأساسية تعلّمت من إجراءات مرئية مسبقة. مستوحى من هذا المفهوم، نقترح شبكة جيجو (JigsawNet)، التي تُعرّف الإجراءات المعقدة من خلال تفكيكها تلقائيًا إلى مجموعات من المكونات الأساسية للإجراء، وربط العلاقات بين المجموعات من السمات البصرية والتمثيلات الدلالية. ولتعزيز مرونة الجسر المُتعلّم بين المجموعات، نقترح وحدة التحفيز المجموعة (GE) لتمثيل المعرفة داخل العينة، ووظيفة فقدان التماسك (Consistency Loss) لفرض على النموذج التعلّم من المعرفة بين العينات. تحقق شبكة JigsawNet أداءً متقدمًا على مستوى الحد الأقصى في ثلاث معايير معيارية، وتتفوّق على الطرق السابقة بفارق ملحوظ.