كلستر: التجميع باستخدام التعلم المعزز للتعرف على الإجراءات بدون عينة مسبقة

التعرف على الحركات من دون أمثلة (Zero-shot action recognition) هو المهمة التي تتمثل في التعرف على فئات الحركات دون توفر أمثلة بصرية، بل فقط باستخدام تمثيل معنوي (semantic embedding) الذي يربط بين الفئات غير المرئية والفئات المرئية. يمكن اعتبار هذه المشكلة كتعلم دالة تُعمّم بشكل جيد على أمثلة من فئات غير مرئية دون فقدان التمييز بين الفئات. يمكن للشبكات العصبية نمذجة الحدود المعقدة بين الفئات البصرية، وهو ما يفسر نجاحها كنماذج مراقبة. ومع ذلك، في التعلم من دون أمثلة (zero-shot learning)، قد لا تنتقل هذه الحدود الفئوية المخصصة جدًا من الفئات المرئية إلى الفئات غير المرئية بشكل فعّال. في هذه الورقة، نقترح تمثيلًا قائمة على الوسط (centroid-based representation)، والذي يقوم بتجميع التمثيلات البصرية والمعنوية، ويأخذ بعين الاعتبار جميع العينات التدريبية دفعة واحدة، وبالتالي يُعمّم بشكل جيد على أمثلة من فئات غير مرئية. ونُحسّن عملية التجميع باستخدام تعلم التدعيم (Reinforcement Learning)، ونُظهر أن هذا أمر بالغ الأهمية لنجاح نهجنا. نُسمي الطريقة المقترحة CLASTER، ونلاحظ أنها تتفوّق بشكل متسق على أحدث التقنيات في جميع المجموعات القياسية، بما في ذلك UCF101 وHMDB51 وOlympic Sports، سواء في التقييم القياسي للتعلم من دون أمثلة أو في التعلم من دون أمثلة المعمم (generalized zero-shot learning). علاوة على ذلك، نُظهر أن نموذجنا يُنافس في المجال البصري أيضًا، ويتفوّق على أحدث التقنيات في العديد من البيئات.