التعرف على الإجراءات متعدد المنظورات باستخدام التعلم التبايني

في هذه الدراسة، نقدم طريقة لتمييز الأفعال بناءً على الصور الملونة (RGB) باستخدام مقاطع فيديو متعددة الزوايا. نُقدِّم إطارًا للتعلم المُوجَّه التبايني (supervised contrastive learning) لاستخلاص تمثيل ميزات مقاوم للتغيرات في الزاوية المرئية، وذلك من خلال الاستفادة الفعّالة من البيانات متعددة الزوايا. نستخدم خسارة تباينية مُحسَّنة مُوجَّهة، ونُكثِّف العينات الموجبة بعينات مشتقة من زوايا متزامنة. كما نقترح منهجية جديدة لاستخدام احتمالات المصنف لتوجيه اختيار العينات السلبية الصعبة في خسارة التباين، بهدف تعلُّم تمثيل أكثر تمييزًا. وتُعطَى أوزان أعلى للعينات السلبية المشتقة من فئات مُربكة بناءً على الاحتمالات اللاحقة. كما نُظهر أن منهجنا يؤدي إلى تعميم مجالي أفضل مقارنة بالتدريب المُوجَّه القياسي المستند إلى بيانات فيديو متعددة الزوايا الاصطناعية. وتُظهر التجارب الواسعة على بيانات حقيقية (NTU-60، NTU-120، NUMA) وبيانات اصطناعية (RoCoG) فعالية منهجنا.